王昊奋知识图谱行业应用课程笔记

应用

Google:搜索,things not strings

智能硬件

通用知识图谱:

  • 广度,强调实体,以常识性知识为主,“结构化的百科知识”
  • 自底向上,很难形成全局的本体上的管理
  • 使用者是普通用户

项目如:

  • 语言类的:WordNet,MIT-ConceptNet5的中文部分,汉语开放词网(Chinese Open WordNet)
  • 百科类:DBpedia,中文通用百科知识图谱(CN-Dbpedia),Zhishi.me,PKU-PIE知识库

行业知识图谱:

  • 特定领域,深度和完备性,“基于语义技术的行业知识库”
  • 准确度非常高,复杂分析应用和决策支持,
  • 严格与丰富的数据模式
  • 使用者是行业人员

首先想到的是 Palantir

行业知识图谱数据的特点:

  • 数据来源多:内部,互联网,第三方
  • 数据类型多:结构化,半结构化,非结构化
  • 数据模式无法预先确定:模式在数据出现后才能确定,并且随着数据增长和任务不断演变
  • 数据量大:TB,PB级别

金融证券,生物医疗,图书情报,电商,农业,政府,电信,出版,看OpenKG中的项目

通用知识图谱可以作为行业知识图谱的基础,行业知识图谱又可以形成通用知识图谱的一部分

企业知识图谱:

  • 企业风险评估、企业路径发现,企业控制发现,上市企业只能问答(股票问问)
  • 用户为:银行、投行、政府。。。

金融交易知识图谱:

  • 辅助信贷审核
  • 反欺诈
  • 异常(交易,客户)分析

医疗知识图谱:

  • 中医药知识服务平台
  • Watson诊断

图情资源知识图谱:

  • 知识导航和资源展示
  • 知识点推荐和搜索
  • 图情资源统计

挑战

企业大数据的挑战:

  • 多源异构数据难融合
  • 数据模式动态变迁难:自由可扩展模式
  • 非结构数据计算机难理解
  • 数据使用专业程度高
  • 分散的数据难以统一消费利用

解决方案:

  • 使用知识图谱(本体)对各种类型的数据进行抽象建模
  • 使用可支持数据模式动态变化的知识图谱的数据存储
  • 利用信息抽取技术,进行结构化,形成知识图谱形式的知识
  • 在知识融合的基础上,基于语义检索、智能问答、图计算、推理、可视化等技术,提供统一的数据检索、分析和利用平台,降低数据使用门槛

行业知识图谱生命周期

建模——获取——融合——存储——计算——应用

行业知识图谱的技术栈:

  • RDF:建模
  • SPAQL:检索
  • RDFS, OWL:推理

RDF(Resource Description Framework资源描述框架):

  • 是语义网标准中的第一层
  • RDF的含义
  • R:页面、图片、视频等任何具有URI标识符的资源;
  • D:属性、特征和资源之间的关系
  • F: 模型、语言和这些描述的语法
  • 三元组模型,每一份知识分解为:SPO(subject predicte object主谓宾)

  • 构建链接资源的图模型,三元组可以看成是图中的弧

  • 各种序列化表示方法:Turtle, TriG, N-Triples, N-Quads, JSON, RDFa

OWL:RDFS的扩展

  • 复杂类: 交、并、补
  • 属性约束:存在量化、全称量化
  • 基数约束:最大基数约束、最小基数约束
  • 属性特征:反、对称、非对称、不相交、自反
  • 属性链

SPARAL:

  • RDF的查询语言,基于RDF数据模型
  • 可以对不同的数据集撰写复杂的连接
  • 由所有主流图数据库支持

知识建模

一站式工具:

  • LOD2:没有中文支持
  • Stardog:仅对结构化数据,没有知识融合

策略:

  • 使用套装工具
  • 扩充套装工具
  • 生命周期中的相应工具
  • 扩充生命周期中的相应工具
  • 从零开始
    一般是选择2,3,4

金融:平安,蚂蚁金服

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章