据AI科技点评,由中国计算机联合会(CCF)主办、福州市人民政府和福州大学承办、福建师范大学和福建工程学院协办的2017中国计算机大会(CNCC 2017)于10.26-10.28在福州海峡国际会展中心举行。除了14个特邀报告外,还有2个主题论坛、40多个学术论坛、30多个专题活动和3个获奖会议,同期将有80多家企业举办科技成果展览。雷锋。com作为独家战略合作媒体,报道了整个会议内容。
在“知识地图预见社交媒体”技术分论坛上,哈尔滨工业大学的刘婷教授做了题为“从知识地图到事物地图”的精彩报告。会后,《AI科技评论》得到了刘婷教授的认可,对这篇报道的精彩内容进行了回顾和梳理。
刘婷教授
刘婷教授的报告分为四个部分:
知识地图与大慈林
提出物质地图的概念
国内外相关工作
哈尔滨工业大学在物联网中的探索
知识图谱与《大词林》知识地图首先通过人工收集数据和标注数据来构建。随着需求的多样化和精细化(比如需要获取XX病是否可以用XX药治疗,XX人是否是敌人/朋友等信息。),人工构建的知识地图越来越难以满足用户的多样化需求。基于此,如何通过机器自动构建大规模知识地图成为研究热点。
知识地图是基于二元关系的知识库,用于描述现实世界中的实体(或概念,是实体的抽象,例如“水果”是“苹果”的概念)及其相互关系。它的基本构成单位是“实体-关系-实体”三元组,实体之间通过关系相互联系,形成网络结构。通过知识地图,可以支持用户按主题而不是按字符串进行搜索,从而实现语义层面的信息检索。基于知识地图的搜索引擎可以直接将结构化的知识反馈给用户,用户无需浏览大量网页就可以找到自己想要的知识。
封闭领域知识地图和开放领域知识地图各有利弊
2014年底,哈工大正式发布《大慈林》。现在,您可以通过在浏览器中键入www.bigcilin.com来访问大慈林。达奇森林是一种通用知识地图,它自动从网络上抓取实体和实体的概念,形成基于上下关系的通用知识地图。这意味着如果用户输入的词不包含在大慈林中,大慈林会实时在网上搜索,从而自动挖掘出词的上位概念词,并将这些上位概念词排列成一个层次结构。比如你输入“林肯”,大慈大悲的林会根据网络中出现的“林肯”的语义信息,自动挖掘出“林肯”的很多概念,比如“汽车”、“总统”、“交通”、“领袖”,然后根据它们的抽象程度,把这些概念描述成层次结构。比如“领导”比“总裁”更抽象,“领导”的级别比图中“总裁”的级别高。
上图左侧是大慈大悲森林等级目录的一部分,骨架是同义词森林(扩展版)。大慈林之所以选择同义词森林(扩展版)作为骨架,是因为经过反复讨论,刘婷教授带领的团队认为词汇应该有两种类型,一种是“实体”对应真实的事物,比如具体的人名、地名、机构名;另一种是“概念”,是“实体”的抽象意义,如“植物”、“果实”。实体之间存在明显的横向关系,而“实体”与“概念”、“概念”与“概念”之间存在明显的层级关系。所以词汇要有横向和纵向关系形成的网络结构。基于此,刘婷教授带领的团队以同义词森林(扩展版)为大慈森林的层级(垂直)关系的骨架。
简要介绍了《同义词林》(扩展版)的问题,它是《大慈林》的骨架。同义语森林的第一个问题是它只有固定的五层结构,但是面对规模几千万甚至上亿的多领域、多样的词汇,固定的结构显然不能有效描述;第二个问题是《叙词表》(扩展版)包含的单词数量非常有限,而且大部分都是抽象概念,规模不到10万字,显然不适合实际应用。基于此,刘婷教授带领的团队决心打破同义语森林(扩展版)的上述限制,从而形成现在的大词森林。首先,大慈林的层数不是固定的,根据文字的抽象程度自动分层;其次,大慈大悲森林包含了很多具体的实体(比如人名、地名、机构名)。它的规模是同义词林(扩展版)的几百倍,而且还在扩大。
大慈大悲森林的特点是可以自动构建来自各种信息源的单词之间的上下关系。这是刘婷教授带领的团队中的一位博士生发表的一篇ACL会议论文(本次会议是自然语言处理领域的顶级会议,被计算机学会评为A级)。本文详细展示了如何从多个信息源自动获取实体概念词的技术框架。
简单来说,获取概念词主要有三个来源:1)从搜索引擎中检索到的大概率共现词,2)在线百科全书的类别标签,3)构词。对于很多词来说,后缀就是这个词的概念词,比如像微软公司这样的公司就是微软公司的概念词。之后,通过排序算法对候选概念词进行评分,然后截取超过一定阈值的候选概念词,保存在大慈林中。
以上方法只获取某个词的概念词,如图左图。但是概念词之间有明显的层次关系,如右图所示,大慈大悲森林的特点是可以自动形成概念词之间的层次结构。基于上述处理方案,从《同义词汇森林(扩展版)》的10万字开始,大慈大悲森林已经成为一个拥有千万词汇层次的知识地图,其规模每天都在不断扩大。
因为DaCi Lin是自动构建的,所以需要对其质量进行评估,以确定DaCi Lin是否包含很多错误,最终是否可以使用。刘婷教授带领的团队对大慈林进行了抽样评估。结果表明,对于某个词,找到其概念词的准确率为85%,识别词与词之间的下位关系的准确率为90%。
与其他知识图谱相比,大慈大悲森林侧重于语言学中词语上下关系的自动构建,是一种语言的知识图谱。当然,目前刘婷教授带领的团队已经开始将横向关系引入大慈林,相信在不久的将来会看到更全面的大慈林。
提出物质地图的概念
关于事物的地图集。现有的知识库一般以“概念和概念之间的关系”为中心,缺乏“事物的逻辑”的知识挖掘。刘婷教授的团队认为,在实际应用中,事物的逻辑(事件之间的演化规则和模式)是一种有价值的常识知识,挖掘这种知识对于我们理解人类行为和社会发展变化的规律非常有意义。举个经典的例子,北京人买房,下一步就是装修。装修完成后,他们会买家具。如果在网上发现有人发微博说自己买房了,装修公司可以跟着做广告。这是预测。事实图不是以名词为核心节点的知识库,而是以事件和抽象事件为核心的知识库。比如一个国家领导人访问另一个国家,就是一个抽象事件。刘婷教授的团队在三年前提出了物质地图的概念。
事件图只定义了两种事件之间的关系:一种是继承,一种是因果,两者都有时间顺序。事件图本质上是事件逻辑的知识库,描述事件之间的演化规则和模式,可以应用于生活的很多方面,如事件预测、常识推理、消费意图挖掘、对话生成等。
原因图和知识图的区别在于,知识图研究名词实体及其关系,而原因图研究谓词事件及其关系。知识图谱的主要知识形式是实体属性和关系,而原因图谱是逻辑关系和概率传递信息。事件之间的演化关系大多是不确定的,而实体之间的关系基本是稳定的。
事件图中事件的定义。事件图中的事件是广义的、抽象的事件,比如吃火锅、去机场、看电影等,但如果非常具体的话,某年某月所做的事情并不是事件图中存储的知识。但也不能太抽象,比如去某地做事,都不是历史地图里储存的知识。事件之间有两种关系,一种是继承关系,即吃饭、付账、离开餐厅,这是非常常见的事件之间的继承关系。有因果关系。我们觉得因果关系很重要。只有建立了因果关系,才能通过控制因变量来影响结果。
事件图中有三种典型的拓扑结构,第一种是链式,继承关系是典型代表。第二种是树状的。这些事件中有一个是心理事件,意在做某件事,其实并没有真的做。第三种是循环型,以打架报复住院为例,来来回回。
国内外相关工作
两个最相关的研究方向是统计脚本学习和事件关系识别。统计脚本学习是一个非常接近事实地图的研究领域。1975年,美国学者Schank提出了剧本的概念。2003年,日本学者提出了自动获取脚本的方法。2008年,丹·朱拉夫斯基(Dan Jurafsky)利用无监督方法构建事件链,成为该方向的代表性先驱工作。自2014年以来,与统计脚本相关的研究工作进入恢复和发展阶段。
此外,另一个技术路线是识别事件之间的关系(时间序列和因果关系)。
哈尔滨工业大学历史地图研究
哈尔滨工业大学主要在两个领域进行了探索性工作,一方面是旅游领域商务地图的建设和应用;另一方面是财务地图的构建和应用。
旅游商务地图的潜在应用
旅行场更多的是一种演替关系,其构建过程包括数据清理、NLP预处理、事件提取和泛化、候选事件对生成、演替关系识别和演替方向识别。
第二个是金融领域的商业地图。
可以用来预测股市。
从知识地图到事物地图的总结
刘婷教授总结:知识图谱在各个领域都得到了精耕细作,其价值也逐渐显现出来,但知识表示形式有待打破,推理能力有待提高。统计脚本学习和事件关系识别的相关研究越来越受到研究者的关注。以“谓语短语”为节点,以事件演化(演替、因果)为边缘,事件图方兴未艾。事件地图将在预测和对话领域发挥重要作用,有效提高人工智能系统的可解释性。
最后,刘婷教授对合作者哈尔滨工业大学社会计算与信息检索研究中心教授、刘明副教授、老师以及博士生赵森东、、蒋表示感谢。
以上内容是刘婷教授在CNCC 2017[知识图谱遇上社交媒体]论坛上的精彩报告,AI科技评论均由他独家授权。
————————————————————
1.《刘挺 哈工大刘挺教授演讲全文:从知识图谱到事理图谱》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《刘挺 哈工大刘挺教授演讲全文:从知识图谱到事理图谱》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1465653.html