语音交互是人机沟通最简单直接的方式。随着近年来语音识别技术的发展,移动互联网和智能手机终端的普及,语音搜索成为搜索领域的热门趋势。相比文字搜索,语音搜索更加便捷,但要真正实现随时随地向用户提供有效信息,在语音识别技术之外,语音搜索还需要有海量数据和强大计算能力的支持。
2016年3月22日下午,新智元记者参加了“百度语音搜索媒体开放日”。百度技术副总裁王海峰以“会倾听、爱思考”为主题介绍了百度语音搜索技术。王海峰表示,语音搜索是“语音识别+智能搜索+思考理解”,也即人工智能技术的大融合。
据百度多模搜索部总监孙雯玉透露,目前百度语音搜索用户以90后、00后人群为主,女性用户占60%。孙雯玉认为语音搜索具有以下优势:
输入更便捷 速度比文字输入更快,而且无需使用双手
口语化表达 文字搜索需要想好关键词、组织语言,语音搜索直接说出想要的东西即可
使用零门槛 老人、小孩以及各种不方便使用键盘输入的人都可以使用
反馈更直接 百度语音搜索有播报功能(可以关闭),能直接用声音把结果反馈给用户
此外,孙雯玉还就用户使用语音搜索时担心几个主要问题,比如方言识别、周围有噪音时不能用、需要大声说话才可以(担心泄露隐私)、中英文夹杂搞不定、语音搜索比较费流量做了解释和说明。孙雯玉表示,只要是普通话,即使带一些口音,使用百度语音搜索也不会有问题,接下来团队的研发重点是粤语、四川话、上海话等使用人群多、语言特征鲜明的方言语音搜索。
百度搜索产品架构师景鲲现场展示了百度语音搜索的使用情况。
百度确实拥有国内最强大的搜索引擎及由此带来的海量数据库。新智元记者在23日上午对百度语音搜索功能进行了实测,主要针对噪音环境下语音识别性能、口语化表达、是否会泄露隐私、中英文夹杂语音搜索和上下文语义理解这几个方面。
【说明】在实测中,记者的声音大小分别使用了大声(走在路上半径50厘米范围能够听到)、普通、小声、悄声(只用气发生,高峰期地铁车厢内旁边的人听不见);语速则分为普通(如“苏州街附近餐厅推荐”)和较慢(如“苏州街、附近、餐厅推荐”)。
场景:室内
询问北京空气质量
【目的】知道今天北京的空气质量,尤其是PM2.5指数
【预期】听到播报声准确反馈
第1次,空气净化器3档,音量50分贝时,小声说“今天北京的空气质量”、“明天呢”、“后天呢”。第2次,吹风机最大档,音量超过70分贝,悄声说“今天北京的空气质量”、“明天呢”“后天呢”。两次结果一样,如下图所示。
【结果】值得注意的是,第1次提问是“今天北京的空气质量”(上图左),接下来问的分别是“明天呢”(上图中)、“后天呢”(上图右)。由此可见,百度语音搜索关于“空气质量”这个关键词,实现了很好的上下文语义理解。
场景:路上
询问北京今日紫外线指数
【目的】知道今天北京的紫外线指数
【预期】情况跟“空气质量”一样
从左到右:第1次普通声、第2次小声问“紫外线有多少、北京”,第3次普通声
从左到右:第4次普通声、第5次普通声、第6次大声
【结果】根据音量和搜索关键词的不同,得到了不同的结果。在6次语音搜索中,除了第2次小声问“紫外线有多少、北京”,其他全部语音识别正确。其中,第1次用普通声问“紫外线指数”,得到了关于紫外线指数的名词解释,虽与预期不符,但属于标准反馈。然而,更改搜索关键词之后,尤其是第6次大声问“今天北京的紫外线指数是多少?”结果第一位显示2015年6月11日数据,第二位2014年6月12日数据,并且都没能直接从屏幕中获得紫外线指数数据。
场景:北京地铁10号线站台
【记者站在玻璃门前黄线位置,背景有人群聊天走动说话的声音、响亮的提示音和列车进站出站的声音】
简单问题搜索
眼睛干涩怎么办?
健身是早上好还是晚上好?
【目的】测试语音识别性能,得到问题答案
【预期】语音识别偶尔出错,得到问题答案
第1次小声,第2次悄声
【结果】语音识别性能很好,尤其是第2次在列车进站时悄声问“健身是早上好还是晚上好”,语音识别小有失误,但内容搜索的自动纠错功能得出了用户想要问的问题。
场景:北京地铁10号线车厢内与周围人紧贴
【目的】检验用语音搜索是否会泄露隐私
【预期】周围个别人会察觉
气声问“有脚气怎么办?”
气声问“长痔疮怎么办?”
气声问“长痔疮怎么办?”
注意上图左和上图右搜索框下的“自动纠错功能提示”
【结果】语音识别有误,但准确显示了用户想要知道的结果。尤其是第1次问“有脚气怎么办?”语音识别结果“小娇妻怎么办”,但搜索结果显示“小脚气怎么办”,基本与输入一致。同时,车厢内周围没有人注意到记者语音搜索的行为。
场景:北京地铁10号线车厢内,与周围人距离约10厘米
【目的】检测是否能直接说出想要的东西即可得到答案
【预期】得到答案
小声问“呼家楼过了是哪一站?”
小声问“北京地铁呼家楼过了是哪一站?”
小声问“北京10号线路线图”
【结果】用口语化的表达“呼家楼过了是哪一站”或“呼家楼的下一站”没有得到想要的答案。经过多次调整搜索关键词,记者终于用“北京10号线路线图”查到了结果。此外,记者还使用“钥匙落门里了怎么办”、“怎么迈过这道坎”等口语化输入做了查询。至少目前看来,使用百度语音搜索仍然需要想好关键词、组织语言,才能得到想要的结果。
场景:安静的办公室
【目的】检测中英文混杂语音搜索结果
【预期】得到答案
普通声问“AlphaGo围棋对弈分析”
普通声问“AlphaGo和李世石哪个谁赢了?”
大声问“AlphaGo和李世石结果比分是多少?”
【结果】语音识别虽然有误,但中英文混杂使用百度语音搜索可以得到比较理想的结果。
【目的】检测上下文语义识别效果
【预期】得到答案,跟“空气质量”相同
普通声问“《生命的奇迹》当当网链接”
普通声问“考克斯的《生命的奇迹》”
普通声问“布莱恩·考克斯写的《生命的奇迹》在当当网的链接”
【结果】第1次语音识别正确,反馈准确;第2次语音识别正确,但上下文语义识别没有意识到用户想要找的是“考克斯写的《生命的奇迹》在当当网的链接”,第3次更正搜索关键词,使用完整准确的表达,仍然没有得到想要的结果。
综上,新智元认为百度语音搜索的语音识别性能很好,用户不用担心周围有噪音和大声说话泄露隐私的问题。同时,内容搜索的自动纠错功能表现也不错,尤其是简单常见的问题(语句),可以认为百度语音搜索基本能够满足当前用户的需求(年轻人为主,搜索内容多为教育、明星、影视和娱乐相关)。可以看出百度目前针对“空气质量”、“尾号限行”以及一些和明星、影视剧有关的关键词做了重点优化。
不过,百度语音搜索在自然语言处理和上下文语义理解方面还有很大的提升空间。此外,尽管拥有国内最强的搜索引擎和数据库,百度本身的搜索功能也还称不上真正“智能”(语音搜索和文字搜索结果一样,想要知道“北京地铁10号线呼家楼下一站是什么”,输入引号内文字是不能在百度搜索上直接得到结果的)。
但不管怎样,语音搜索都拥有巨大的市场潜力。随着越来越多的用户习惯对着手机或者智能可穿戴设备说话,未来有机整合了语音识别、语义处理和智能搜索的语音搜索技术将不仅仅限于手机,还将应用于自动驾驶汽车和服务机器人等更广泛的载体。
人工智能大咖读《新智元:机器+人类=超智能时代》
胡郁|科大讯飞轮值总裁、科大讯飞研究院院长
60年一个甲子的轮回,人工智能在跌宕起伏的发展中进入第三次高潮当中,伴随着互联网、移动互联网、物联网的发展,人工智能的新纪元已经来临。《新智元:机器+人类=超智能时代》这本书的出版,将和各位读者一起见证人工智能在运算、感知和认知的各个层次逐步*越人类,共同面对机器与人类习作的新篇章。十大人工智能研究院院长、AI 专家
技 术 重 磅 解 密
谷歌AlphaGO战胜李世石,标志着机器智能向人类智能的领地又迈进了伟大的一步。而“互联网+”向“智能+”时代的跃迁,也昭示新智能时代即将到来。2016年,恰逢人工智能诞生60周年,《新智元:机器+人类=超智能时代》是人工智能技术和产业狂飙突进的见证,为读者打开人工智能世界的一扇大门,不仅可以一窥百度大脑、讯飞超脑、中国大脑计划究竟,更可以著名人工智能研究院院长等顶级专家大咖的技术解密作为对智能产业未来趋势的参照。近百位学界、商界、技术界、产业界的专家,从机器人、机器学习、智能汽车、智能医疗、认知科学、高性能计算和“AI+”投资等不同视角,对人工智能和机器人产业进行评析。人类未来在AI时代将何去何从,超智能时代将引发社会更多思考。
预售链接请见阅读原文。
1.《(如何关闭百度自动语音播报)百度地图如何关闭语音?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《(如何关闭百度自动语音播报)百度地图如何关闭语音?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/3222858.html