演讲者:严丰|香港科技大学
曲新编选
量子位制作| QbitAI,微信官方账号
本文是严丰教授8月18日在北京创新工作分享记录的汇编。分享的主题是“如何打造非凡的机器”。
严丰目前是香港科技大学电子与计算机工程系的教授。他的主要研究领域包括语音理解、机器翻译、多语言处理和音乐信息检索。
严丰教授于1988年获得伍斯特理工学院电气工程学士学位,并于1993年和1997年分别获得哥伦比亚大学计算机科学硕士和博士学位。
2015年因在人机交互领域的突出贡献被授予IEEE院士荣誉。他曾担任过IEEE音频、语音和语言处理事务,IEEE信号处理信函和ACM语音和语言处理事务。除了《计算语言学协会学报》等国际期刊的副总编辑之外,他还是ACL SIGDAT的主席和董事会成员。
△严丰教授
各位下午好。非常感谢李开复博士的邀请。今天我分享的题目是:如何构建共情机器,如何让机器人更共情。
为什么会提到这个话题?因为现在我们会看到很多人工智能的商机,但是除了商机,我们还需要看到未来,比如五年、十年甚至二十年后人工智能会如何发展。
所以现在有几个大问题需要我们反思:
人工智能不仅仅是简单的工程事物。人工智能不同于其他机器。其中重要的一点是“人”,在“人工智能”中被称为“人”。
一项技术要为人类服务,是否需要同理心,即需要情商,而不仅仅是智商。
这台机器有正确的数值。两年前微软推出了一款聊天机器人,刚上线不久就下线了,就因为说了一些不合适的话。这只是一个聊天机器人,所以如果你在做客服,这个系统需要非常清楚什么该说,什么不该说。
机器是为人服务的,人是多种多样的,有不同的性格,不同的情感。这台机器能帮助我们发现自己的心理问题吗?
后面还会提到另外两个问题:人工智能能有幽默感和审美吗?
首先,我想让大家觉得,情感很重要,不仅仅是乐趣。利用信号处理的方法,改变声音的情感色彩,这样听到的声音的意义就会不同。
先说“共情”,英语里叫“共情”:理解、觉察、敏感、体验另一个人的感受、想法、经历的动作,意思是我能感受到旁边人的想法和感受。
那么共情沟通就是共情沟通,共情沟通是人际沟通的重要组成部分。通常情况下,你可能感觉不到太多,但是当你和电脑交流的时候,没有“共情”,就会导致交流障碍。
我们说的自然语言理解是AI中的一个大领域,我们现在提出的“自然语言共情”就是在自然语言理解中加入情感和意图的识别及其答案。
这跟创业有什么关系?与我们目前能看到的人工智能市场有什么关系?
先说虚拟代理:虚拟助手,它的市场。
现在可以看到有很多场景需要虚拟助手,比如机器人客服。从现在到未来十五年,我们可以看到家庭机器人和服务机器人的市场中心将转移到中国和亚洲,而不是欧美。因此,如果机器人来帮助和服务人类,他们需要一个软件来理解人们的需求。现在的客服可以换成机器,但是这个机器需要了解人需要什么。比如无人驾驶,车本身变成了人的助手,人需要告诉它我们的需求;另一个是智能家居,目前的发展方向是人机交互。
为什么机器需要情商?因为机器有三大优点:
机器有了情商之后,可以比人更好的工作,更准确的识别人的情绪,因为现在的数据集可以让机器学习,在某个领域比人更强大。
该机能快速自动适应用户当前的心情,并能准确了解当前人类的心情。
增加了用户的粘附性。增加用户的附着力不仅要求精度,现在精度可以很高。然而,语音识别之后,我们需要机器来理解我们的意图和我们在说什么。
如何让人机交互更有同理心?事实上,在做研究时,我发现有几个要点:
大多数人不会频繁使用Siri这样的非物理移动助手,因为没有特定的图像,人们会觉得和它没有实质性的联系,所以一个系统需要特定的图像。在交谈中,我们希望对方有具体的形象,能讲得有趣,能听懂我的表情,我的语气,能听懂我的意图,这些都需要机器实时响应。
目前的研究可以实时进行,也是目前的一个方向:同理心理解。
还有一点是,很多研究发现,人类喜欢有人类形象的机器人。因此,我们实验室设计了一个具象机器人——ZARA。Zara和siri在原理和功能上类似,不同的是我们是一个面向任务的对话系统。
对话系统有两种:聊天机器人和面向任务的对话系统。聊天机器人,如萧冰,旨在能够循环对话。面向任务的对话意味着你需要完成一项任务,比如为你做投资,为你订票,或者为你预定餐厅。
面向任务的对话包括前端处理、语音识别、对话服务,最后是语音合成,这是一种传统做法。现在提出的是在中间加一个共情模块,会识别人的情绪、性格甚至心理问题。
下面说说如何用语音和语言做情感识别。
第一部分是如何在音频和语音中直接捕捉情感信息。
首先我想说一下音乐的分析。音乐之所以产生,是因为音乐本身表达的是情感。下图横轴是化合价,表示人的幸福;纵轴唤醒表示兴奋程度。音乐和人类情感是同一个计划。所以我们在做音乐分析的时候,想看看能否用机器学习直接区分音乐风格。
我们几年前的方法是直接提取特征,提取1000-2000个特征,每一段音乐都用特征来表示。特性的优势是:可视化。
举个例子,如果我们能看到三个歌手,把他们所有的歌都放在一个二维空间,我们就能直观地看到红歌手和蓝歌手的音乐风格是相似的。右边也是寻找宝莱坞音乐人之间相互影响的方法。这对于音乐推荐来说是一件非常重要的事情。
那么问题之一就是特征提取非常慢。要想识别人的情绪,需要实时性,但特征提取无法实现实时性。然后是深度学习。
深度学习的优点是机器自动抽取。然后我们把音乐做成样本,不做任何处理就放进去,看它能不能提取出自己的特征。
后来发现这个方法是可行的。最重要的是,机器速度非常快,比以前快了6倍,可以实现实时。因此,在音频情感识别中使用DNN方法可以实现实时性。
看它的效果,这是2016年,效果和传统SVM差不多,SVM需要提取1000-2000个特征。下图是对音乐风格的识别。
下图是音乐情感识别。我们用专家鉴定的几千首音乐训练CNN,发现它的速度和效果都很好。也就是说,音乐风格和情感可以直接识别,不需要标注。
另一个是人说话时的情绪,那么这是如何被认可的呢?
我们刚才说的利用CNN识别音乐的算法,直接应用到人的情感识别上。然后发现CNN比原来的特征提取效果更好,速度更快,效果更好。主要是识别人的主要情绪,开心、难过、愤怒、平静,其次是十几种第二情绪,包括幽默、看不起人等等。
这些都比较难,但是用CNN的好处就是数据多了,以后会越来越准。在这一点上,机器是可以超越人的,因为人做了,每个人的同理心就会不一样,标准也会不一样。
在识别十几秒情绪的过程中,会发现比原来的SVM要好,但是有些情绪容易识别,有些不容易识别,整体平均60%,所以这方面还有很多工作要做:需要更多的大数据;算法需要优化。
然后是CNN的结构。CNN的第一层是做信号处理的,上一层之后会越来越抽象。
CNN的每一级都和我们耳朵的听觉系统有关。
我们看得更深的是没有信号处理的音频需要看到的东西。还有一个问题:用英语训练的情感识别系统是否也能识别中国人的情感。那么我们需要知道的是整个CNN在各个层面都在应对什么。
这是一种等级,情感,人格。从低频到高频,发现在第一层开始提取能量、音高、频率等信息。
以后会有不同的激活,可以区分哪里有声音,哪个更有激情。
我们使用一种叫做t-SNE的方法,它在每一层投射点,并用不同的颜色代表不同的语言。
我们可以看到,每一种语言在第一层经过信号处理后,仍然是混杂在一起的。CNN上的越高,每种语言分离的越多,最后基本完全分离。在今天的深度学习中,最低是语言依赖,越高越有语言信息,这和我们的特点很像。
这是我们的数据库。
这个结果想告诉大家:在情感识别中,如果第一层用多种语言训练,这种方式是好的,级别越高,语言就会分离。
然后我们做了一个实验。机器人是这样识别人的性格的。
人与人交往时,会有意无意地迎合别人的性格,这是交往中的合作形式。CNN也可以用于机器的字符识别,可以直接从面部表情和语音识别出来。比如识别是否外向,是否容易相处等等。
也可以使用多种语言组合在一起的训练方法。
以人为本,就是在中国生活的时候,可以通过语言来识别自己的性格。出国后,经过一段时间的适应,因为在国内有基础,所以可以通过语言快速识别自己的性格。
随着情感识别的基本能力,越来越不受语言的限制。
我们刚刚讨论了音频和语音中的情感识别。后面再说自然语言和文本相关的情感识别。
文本中的情感,比如大众点评,从他的评价描述来判断他为这家店打了多少星,这就叫文本中的情感识别。
用户与机器人交流时,机器人应该如何应对错字?
自然语言理解中一个更大的主题:整合情感和情绪的需要。
这是从推特上看人的情绪,我们基本上用CNN和Word嵌入。
Word嵌入的好处是数据可以直接使用,数据不够的时候非常有用。
这是我们做的一个题目:如何从新闻报道中提取标题。
新闻标题是总结中比较简单的工作,但是后来发现报纸的标题和网上的标题不一样。机器制作的标题是真实的内容总结,但是现在需要很多点击率高的标题,这个标题很有感情。
怎样才能让机器自动生成点击率高的标题?在
这是我们第一次发现自然语言处理领域需要情感识别来产生更容易接受的标题。
我们应该从财经新闻中看到市场趋势。之前有欧洲专家做过研究。如果按照财经新闻来研究,12天后就可以预测趋势。其实这是大数据,我们挖掘的是情感。
人和机器人是如何相处的?发现有20%-25%的人说了不该说的话,就是骂人的话,那么机器人应该如何应对?这个也可以通过CNN了解到。我们可以用一个步骤:用词是否具有攻击性、性感或种族主义等。,或者用两步:首先我们知道单词是否应该说,然后我们知道单词属于哪一类。
我们可以给Chatbot添加一个值,这个值有两个任务:如何让Chatbot记住之前的对话内容;如何回答。训练的时候要给它加上情感。
这是性格分析。当我们与人机交流时,如果机器知道我们的性格,它就能以我们喜欢的方式与我们交谈。那我们是怎么去字符识别的呢?人格识别也是CNN做的。
可以用同一个系统识别吗?说不同语言的人,从直觉上看似乎性格不同,但是经过实验,我们提出了一种方法:双语单词嵌入,无论哪种语言都可以识别出相同的意思,那么我们就可以发现,有一个系统可以通过不同的语言来分析性格。
那么这就是心理关联,可以区分人的心理问题。从邮件、Facebook等一些文本中,通过聊天的过程,识别出这样的问题。结果是:我们需要理解语言的意义和这个音频的状态。这两点比理解说了什么更重要。
这就是《生活大爆炸》。《生活大爆炸》里有一个叫谢尔顿的人,我们实验室的一个学生做了一个聊天机器人,叫Sheldonbot。有时它被称为谢尔顿波特,因为他听不出笑声。他的研究课题是:如何让机器有幽默感。要有幽默感有两步:第一步是我会在笑的点笑,这叫能不能识别幽默感;第二步,营造幽默感。
他是怎么做到的?也分两步:第一步是识别,让机器理解笑点,训练数据源是美剧的喜剧,因为美剧里所有的喜剧一出现笑点就会笑,那么这句话在笑之前的对话中就有幽默感了;
第二步,幽默生成,就是让机器抛出笑声。和我们刚才说的Chatbot差不多,不同的是它的目的是让人发笑。除了使用sequence2sequence学习模型,还加入了强化学习,即在训练的过程中,在人笑的地方强化学习。在这个领域,这只是工作的开始。
综上所述,在机器人对话中加入一个共情分析是很有必要的,无论是客服还是聊天机器人。还有一点就是我们在做情绪分析的时候也可以加入面部表情识别,其他的研究也会加入肢体语言,这是一种情绪的表达。
另一个是我们的方法。两年前,我们小组用DNN进行机器学习。首先是因为它的速度快;第二,因为更容易统一使用DNN,情绪,表情等。可以表达情感,并一起学习形成一个可以识别所有情感表达的系统。在这方面,DNN是一个很好的平台。
今天我的分享到此结束。谢谢你。
-结束-
此外,量子位NLP技术交流小组正在为从事相关NLP领域的工程师和研究人员招聘。
1.《empathetic 香港科技大学教授冯雁:How to Build Empathetic Machines》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《empathetic 香港科技大学教授冯雁:How to Build Empathetic Machines》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1757538.html