spo 信息抽取:SPO三元组知识

2021-04-29 21:46:41 房产信息 spo,数据,万个,模式,信息

信息抽取(Information Extraction，IE)是一种从自然语言文本中抽取实体、属性、关系和事件等事实信息的文本处理技术。IE是信息检索、智能问答、智能对话等人工智能应用的重要基础，受到业界的广泛关注。信息提取涉及复杂的技术，如命名实体识别、引用解析和关系分类，这是极具挑战性的。该任务发布基于模式约束的SPO信息抽取任务，即在给定的模式集下，从自然语言文本中抽取满足模式要求的SPO三重知识。

数据介绍

本任务中使用的SKE数据集是业内最大的基于模式的中文信息抽取数据集，包含超过43万个三元组数据、21万个中文句子和50个已定义的模式。表1显示了包含在SKE数据集中的50个模式和相应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集分为17万个训练集、2万个验证集和2万个测试集。训练集和验证集用于训练，可以免费下载。