当前位置:首页 > 娱乐星闻

张民 苏州大学张民教授两小时讲座精华摘录:自然语言处理方法与应用

2018中国人工智能大会(CCAI 2018)于7月28日至29日在深圳举行。“过去没有过去,未来已经到来。”李德意院士在CCAI 2018开幕式上对人工智能的发展寄予厚望,认为未来的人工智能将给人类带来新的启示。

CAAI副主席、中国科学院院士谭铁牛在开幕词中也强调,“理性与实用主义”是未来人工智能的重要路线。他也希望中国人工智能大会能给观众一场完整的视听盛宴和丰富的体验。

在2018中国人工智能大会(CCAI 2018)第一天下午的专题论坛上,东吴大学特聘教授、国家杰出青年科学基金获得者张敏发表了题为《自然语言处理方法与应用》的演讲。在这次两个小时的讲座中,张敏教授围绕AI、自然语言和NLP与听众分享了自然语言处理的相应研究,以及相应的方法、应用和前景。雷锋的《人工智能科技评论》为读者整理了张敏教授的讲座总结和一些重要内容。

一、AI、自然语言和自然语言处理

从农业社会、工业社会到信息社会、从数据到信息、从知识到智能的演变代表了人类社会的巨大进步,显示了人类对不同概念的解释和理解的演变:

数据可以理解为主观/客观世界事物的数量、属性、位置及其相互关系的抽象表示。信息是一种时间敏感的、有意义的、逻辑的、经过处理的、对决策有价值的数据流,即经过处理的逻辑数据。信息的丰富性决定了我们需要提取并浓缩成知识;但是拥有用知识解决问题的能力,真的叫聪明。从历史的长河来看,人工智能的产业成熟度曲线和人类的认知系统,是通过反复经历“人类要被毁灭”的恐慌(发现人工智能的能力超乎想象)和叫出“骗子”的顿悟(发现人工智能的局限性)而循环完善的。在张敏教授看来,这两种极端的观点只能部分代表人工智能的观点和看法,不应该是片面的。

人工智能的内涵与外延;

能够解释清楚什么是人工智能很重要。按照张敏教授的理解,按照李德意院士的说法,人工智能的外延包括机器人和智能系统。内涵包括以下四个层次:

底层是脑认知基础,上层是以知识工程为核心的知识建模、获取和推理;中间有两个同样重要的内容,一个是感知智能,即机器感知和模式识别;另一个是认知智能,也就是自然语言处理和理解。

人类进化与语言的关系

从感知、认知到进化,人为什么能踏入食物链的顶端?因为人类有语言,语言把人和动物区分开来。语言的本质是一套符号系统。在语言类型上,一个是动物语言,一个是人工语言,一个是自然语言。自然语言是人类最重要的工具,是人类交流的各种表达符号。

那么自然语言处理的定义是什么呢?就是用计算机来处理人类的自然语言。

自然语言处理中有三件重要的事情:

1.分析理解;2.生成和应用(交互过程);3.动作(对应于执行语言的内容)。

自然语言处理中涉及到哪些方法可以更好的表示、推理和学习?张敏教授总结了以下内容:自然语言处理的算法和理论、规则、统计、机器学习和深度学习。

机器能理解人类的自然语言吗?

从广义上看,真正的自然语言处理始于20世纪50年代对机器翻译的研究。然而,语言是高度模糊和结构化的。自然语言处理为什么这么难?张敏教授认为包括以下因素:

功能:语言是对世界的认识和理解;知识:涉及到语言学知识、外部知识、领域知识甚至是常识等多种综合知识。特性:语言具备组合性、开放的、动态的、长期特性等多种特性。语用性:张民教授着重强调了环境、上下文、信息、意图等各种因素对于理解语言的重要性和复杂性。二、自然语言处理的方法

像人工智能一样,张敏教授将自然语言处理分为外延和内涵。扩展指的是自然语言处理的应用(下一部分会重点介绍);内涵涵盖了自然语言分析(分析语言表达的结构和意义)、自然语言生成(从内部表示生成语言表达)和多语言处理三大内容。

分词

分词的任务被定义为输入一个句子并输出一个单词序列的过程。比如“严守一关掉了他的手机”输出是“严守一/关机/手机/关机/。」

目前主流的两种方法包括基于离散特征的CRF和BILSTM-CRF。

挑战包括交叉歧义、新词识别、领域移植、多源异构数据融合和多粒度分词。

命名实体

当前的主流方法包括:

1.规则系统

2.基于机器学习的学习系统

目前,挑战包括在新领域承认旧实体和新实体。解决方案包括使用造词知识和领域知识,使用强化学习、跨领域学习、半监督学习、众包、远程监督等机器学习方法。

语法分析

句法分析的任务被定义为输入一个句子的单词序列并将其作为句子结构表示输出的过程。依赖解析的输出是依赖语法树。下面是一个依赖解析的例子。

目前使用的方法包括:

基于图的方法,即从图中搜索得到句法树,主要的任务在于确定每个依存弧的分值;基于转移的方法:即通过一系列移进规约的动作得到句法树,主要任务在于基于当前状态,确定每个动作的分值。

目前主流做法是在以上两种的基础上增加深度学习的方法。

语义分析

定义是将文本转换成可计算的知识表示。目前学术界的语义表达方法有:1)浅层语义分析;2)逻辑语义分析;3)抽象语义表示分析。

文本分析

文本的定义是指由一系列连续的段落或句子组成的整个语言单位。核心问题是文本结构和文本特征。它所依据的基本语言学理论包括中心论、语境论、RST和其他许多基本语言学理论。

基本结构分析

语篇结构是指语篇内部关系的不同结构表达,包括逻辑语言结构、指称结构、话题结构、功能结构和事件结构。

基本特征的研究

它包括七个基本特征:连接性、连贯性、意图性、可接受性、信息性、情境性和跨文本性。

自然语言生成

张敏教授总结了三种自然语言生成方法:基于规则的、基于知识的检索和深度学习的优缺点。

基于规则

它的一大优势在于具体领域回答准确;但相应地,在可移植性和可扩展性上也存在一些不足。合适的场景是个人助理和任务驱动的对话。

基于知识的检索

它的优点是知识库容易扩展,答案没有语法错误;但对话连续性差,容易答非所问;适用场景主要是问答系统和娱乐聊天。

基于深度学习

数据驱动法可以省去显示语言理解的过程,但需要大量的语料库支持;适用场景是领域语料库丰富的场景,主要是虚拟图像和智能聊天机器人。

三、自然语言处理的应用

自然语言处理应用包括自然语言处理本身的直接应用和在自然语言处理行业的应用。直接应用包括问答、对话、机器翻译、自动文摘、机器写作、阅读理解、信息提取、情感分析等。同时,自然语言处理广泛应用于教育、医疗、司法、金融、旅游、国防、公共安全、科技、广告、文化、出版等各个行业。

1.情感和情绪分析

在行业研究和应用中,情绪一般包括正面、负面和中性,而情绪一般表达喜悦、愤怒、悲伤、喜悦、惊喜、恐惧、思考等。情感和情绪是人对客观事物的态度,但情感更倾向于对个人基本需求和欲望的态度,而情绪更倾向于对社会需求和欲望的态度。情绪和情绪分析,包括问题驱动和模型驱动,在工业界和学术界得到了广泛的应用和研究。

2.问答

智能问答主要有三个要求:一是理解人类语言的内涵;二是推敲知识获取的意图;三是挖掘出准确恰当的知识。

因此,问答系统需要解决三个问题:

1.问题分类、分析和理解(一阶逻辑、二阶逻辑)

2.答案的匹配和检索

3.答案生成

问答中的四大难点及解决方法

1)多源异构大数据背景下开放域问答瓶颈。在效率与覆盖的权衡下,数据量与知识率的关系是每个研究者都需要考虑的问题;然而,结构化数据和非结构化数据的混合导致了知识挖掘和存储的相应困难。此外,数据时效性的变化也给新旧知识的应用带来了挑战。

以前用的是IR或者RC,现在流行的是对检索得到的多个段落进行排序,也就是在IR和RC中加入排序操作,然后针对多个段落提取/生成答案。

2)深层语义理解的提问技巧。以沃森为代表的系统采用抽取和置信度计算的方法;目前,阅读理解的抽取/生成方法促进了技术的发展。

3)知识库和知识图谱。过去,知识库的可靠性、包容性和普遍性都很低。目前,研究者更关注通过自动生成当前热点问题来实现知识地图的自动更新和扩展。

4)多模态场景下的问答。问题的对象往往隐藏在多媒体中,答案的判断需要参考其他媒体的数据资源。目前,有一种语言处理RNN和图像处理CNN有机结合的方法,实现跨媒体特征共享、独立和反依赖。

谈话

根据不同的应用场景,可以分为开放域和封闭域对话系统。语境文本建模、对话状态转换模型和高精度领域知识建模是对话中亟待解决的问题。

知识地图

包括知识建模、知识地图构建、知识融合、知识推理计算和知识赋权。知识地图构建是学术界和工业界的研究热点,包括实体和属性识别、事件提取、实体事件关系提取、概念实例化和规则学习。

机器翻译

目前机器翻译已经取得了很大的进步。张敏教授期待机器翻译在以下领域的未来发展:

知识建模和翻译引擎,从词序到语义到知识,使用知识地图和各种知识(语言知识、领域知识、常识知识等)。)进一步拓展机器翻译的边界;

研究新的翻译模式,从广度(文本)和深度(深度理解)上进一步提升机器翻译的理解能力。此外,还需要适应工业化和国家战略的需要。

第四,人工智能时代的自然语言处理

张敏教授告诉雷锋。com(微信官方账号:雷锋。com) AI科技评论认为,目前自然语言处理的发展正处于历史最好时期。早在20世纪90年代,他们的团队就试图将自然语言处理应用于商业,但由于技术的限制,商业模式未能成功落地。“早起的鸟儿有虫吃,但起得太早,天亮前就饿死了。张敏教授的亲身经历使他认识到,技术的进步,加上工业的需求和落地,使得自然语言处理迎来了新的春天。

同样,张敏教授也提到了AI时代自然语言处理的三个基本问题,一个是表征;一个是搜索推理,一个是学习。

从底层来看,包括 NLP 词法、句法、语义到篇章的 NLP 基础研究和核心技术;从应用研究来看,包括情感分析、信息抽取、对话系统、阅读理解、信息检索、问答系统、知识图谱、机器翻译等;从上层来看,则是相应的平台、系统和应用。

这些也是张敏教授团队研究工作的重点。

张敏教授评论AI技术,从数据与信息到知识与智能,未来学科边界与知识智能的结合将进一步整合,并在可解释性、小数据、知识赋能等急需解决和探讨的问题上进一步延伸;同时,他注重科学问题的简洁性,明确学科研究规范和研究框架,重视产学研结合与融合,这也是他对AI时代这一“历史上发展最好的时期”的自然语言处理的期待。

想了解更多语音语义?

1.《张民 苏州大学张民教授两小时讲座精华摘录:自然语言处理方法与应用》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《张民 苏州大学张民教授两小时讲座精华摘录:自然语言处理方法与应用》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1610227.html

上一篇

丹凤眼好看吗 丹凤眼的人命运如何?丹凤眼的男生好不好看丹凤眼的人命运如何?丹凤眼的男生好不好看

下一篇

处女是什么 古代鉴别处女的惊人方法揭秘,处女的最大特征是什么

辩证法三个基本观点 速看!辩证法原理知识点梳理,考试你一定用得到!

  • 辩证法三个基本观点 速看!辩证法原理知识点梳理,考试你一定用得到!
  • 辩证法三个基本观点 速看!辩证法原理知识点梳理,考试你一定用得到!
  • 辩证法三个基本观点 速看!辩证法原理知识点梳理,考试你一定用得到!
返朴归真 【道教知识】——什么是“返朴归真”

返朴归真 【道教知识】——什么是“返朴归真”

什么是“回归简单” “朴”的意思是没有雕花木,保持着其固有的质朴。“真”指的是真理与生俱来的纯粹性,即道。 《道德经》说:“专气是软的,但可以是婴儿”?“敦西,如果简单的话;旷Xi,若其谷;混合Xi,如果它是浑浊的。”。“到虚拟极点,保持安静.....回到他们的根。归根结底,静,静曰我后。...

七年级历史下册知识点 人教版|七年级历史下册知识点总结,寒假预习

七年级历史下册知识点 人教版|七年级历史下册知识点总结,寒假预习

人教版七年级历史第二册知识点综述 第一课繁荣的隋朝 第一,南北统一 1.隋朝的建立 时间:581年成立:隋文帝隋文帝定都长安 2.隋朝的统一 时间:589 第二,“开启皇帝的统治” 隋文帝的执政措施: ①改革体制②发展生产③重视吏治 隋文帝统治时期,国家统一稳定,人民负担轻,经济繁荣。隋文...

七年级历史下册知识点总结 人教版|七年级历史下册知识点总结,寒假预习

七年级历史下册知识点总结 人教版|七年级历史下册知识点总结,寒假预习

人教版七年级历史第二册知识点综述 第一课繁荣的隋朝 第一,南北统一 1.隋朝的建立 时间:581年成立:隋文帝隋文帝定都长安 2.隋朝的统一 时间:589 第二,“开启皇帝的统治” 隋文帝的执政措施: ①改革体制②发展生产③重视吏治 隋文帝统治时期,国家统一稳定,人民负担轻,经济繁荣。隋文...

历史七年级下册知识点总结 人教版|七年级历史下册知识点总结,寒假预习

历史七年级下册知识点总结 人教版|七年级历史下册知识点总结,寒假预习

人教版七年级历史第二册知识点综述 第一课繁荣的隋朝 第一,南北统一 1.隋朝的建立 时间:581年成立:隋文帝隋文帝定都长安 2.隋朝的统一 时间:589 第二,“开启皇帝的统治” 隋文帝的执政措施: ①改革体制②发展生产③重视吏治 隋文帝统治时期,国家统一稳定,人民负担轻,经济繁荣。隋文...

七年级下册历史知识点总结 人教版|七年级历史下册知识点总结,寒假预习

七年级下册历史知识点总结 人教版|七年级历史下册知识点总结,寒假预习

人教版七年级历史第二册知识点综述 第一课繁荣的隋朝 第一,南北统一 1.隋朝的建立 时间:581年成立:隋文帝隋文帝定都长安 2.隋朝的统一 时间:589 第二,“开启皇帝的统治” 隋文帝的执政措施: ①改革体制②发展生产③重视吏治 隋文帝统治时期,国家统一稳定,人民负担轻,经济繁荣。隋文...