语音是最自然的交流方式,但一直无法与机器自然交流。自从爱迪生发明留声机以来,人们开始与机器交谈——但主要是与人交流,而不是与机器本身交流。
到20世纪80年代,语音识别技术可以准确地将口语转换成文本。2001年,计算机语音识别的准确率达到80%。从此,我们可以提取口语的意思,并做出回应。然而,在大多数情况下,技术仍然不能像键盘输入一样给我们带来足够好的交流体验。
近年来,我们取得了巨大的技术进步。语音识别引擎的准确率提高了很多,现在达到了95%,略高于人类的成功率。随着这项技术的发展,语音优先的基础设施变得越来越重要,于是亚马逊、苹果、谷歌、微软、百度都快速部署了语音优先的软件,软件快速搭建,平台快速搭建。声音为王的时代已经到来!
现在我们来仔细谈谈下面两点:
我们如何达到目前语音识别技术的水平?
基于声音的基础设施是如何开发的?
▍ 语言识别发展史语音识别并不新鲜,它可以追溯到20世纪50年代,但过去人们用不同的方法来理解语音。为了对过去几十年有更深入的了解,我尝试总结了大量的相关文章。
文章的出处在文末,尤其是Chirs Woodford的语音识别软件,为本文提供了主要依据。
1950/1960
第一个语音识别系统是基于单一模式匹配的。这些早期系统的一个很好的例子是公用事业公司使用的自动化系统,它允许客户自动读取电表。在这个例子中,客户对系统的响应只是有限选项列表中的一个单词或数字,计算机只需要区分有限数量的不同声音模式。
它是通过将每个声音块与其存储器中相似的存储模式进行比较来实现的。1952年,贝尔实验室的一个团队设计了奥黛丽,一种可以理解口头数字的机器。
1970
随着技术的发展,基于模式和特征分析的语音识别系统得到了发展,其中每个单词被分解成比特字节,并通过关键特征(如它包含的元音)进行识别。这种方法包括将声音数字化并将数字数据转换成声谱图,将其分解成声音帧,然后分解单词并识别每个关键特征。
为了识别可能说的内容,计算机必须将每个单词的关键特征与已知特征列表进行比较。你用的越多,系统就越好,因为它整合了用户的反馈。这种方法比以前的方法有效得多,因为英语口语的基本声音成本非常有限。
从1971年到1976年,美国国防高级研究计划局(DARPA)投资了五年的语音识别研究,旨在制造一种至少能理解1000个单词的机器。这个程序使卡内基梅隆大学创造了一台可以理解1011个单词的机器。
1980
但是之前的手法还是不算超精准,因为说话太复杂了:不同的人会用不同的方式说同一个单词,而且还有很多发音相近的单词(比如两个和太)。为了进行统计,语音识别系统开始使用统计方法。这一时期引入的关键技术是隐马尔可夫模型(HMM),用于建立声学模型和随机语言模型。
声学模型表征了音频信号与语音单位之间的关系,从而重构出实际内容(特征→音素)。例如,语言模型根据最后一个单词预测下一个单词。“天佑”的后续词相对于其他词,更有可能是“女王”。
另外还有语音词典/辞典,可以提供与单词及其发音相关的数据,链接声学模型和语言模型(音素→单词)。最后,将当前单词的语言模型得分与其声学得分相结合,以确定假设单词序列的可能性。
1987年,能对声音做出反应的玩具朱莉·多尔(Julie Doll)将语音识别技术带入普通家庭。
1990
直到20世纪90年代,语音识别系统发展太慢,无法开发有用的应用,但当时推出的微处理器带来了巨大的进步,语音商业应用开始出现。
DragonDecitate之龙于1990年问世,是市场上第一款语音识别产品。在1997年,你可以在一分钟内对系统说100个单词。
2000
计算机语音识别的准确率在2001年达到了80%,但此后进展甚微。
2010
在过去的十年里,机器学习算法和计算机性能的进步带来了更有效的训练深层神经网络的方法(DNN)。
因此,语音识别系统开始使用DNNs,更具体地说,它使用DNNs的一种特殊变体,即循环神经网络(RNNs)。从那以后,基于RNNs的模型显示出比传统模型更好的准确性和性能。事实上,语音识别的准确率在2016年达到了90%,谷歌声称在2017年6月达到了95%。
这令人震惊,因为研究人员估计人类的转录准确率略低于95%。然而,这些公布的结果应该小心对待,因为它们通常是在完美的条件下测量的,例如,没有背景噪音的记录和以英语为母语的人的记录。在“不纯条件”下,准确度可以降低到75-80%,这是可以理解的。
当你需要标注数据来训练算法时,现在的挑战是获取现实生活中记录的数千小时的语音音频,这些音频可以提供给神经网络,提高语音识别系统的准确性。这就是谷歌、亚马逊、苹果、微软放谷歌Now在做的事情!
每部手机上的Siri和Cortana免费或低价出售Alexa。这都是为了训练数据!
▍语音基础设施发展
语音基础设施的发展可以分为三个必要的层次,以产生新的应用:
硬件允许更多人使用语音作为接口;
软件构建模块允许开发者构建相关的语音优先应用程序;
生态系统可以实现有效的分配和收益。
语音硬件的发展
Voicelabs将语音优先设备定义为永远在线的智能硬件,其中主要借口是语音,包括输入和输出。市场上第一款语音优先硬件是亚马逊在2014年底推出的Echo。
根据VoiceLabs2017的报告,2015年售出170万台语音优先设备,2016年售出650万台,2017年售出2450万台,因此使用中的语音优先设备有3300万台。市场上的主要代表是亚马逊的Echo(2014年11月)和谷歌的Home(2016年11月)。
但是新玩家不如新兴:索尼推出LF-S50G;基于Google Assistant(2017年9月);苹果即将推出HomePod(2017年12月);三星最近宣布将“很快发布”类似产品;而且Facebook可能会推出带触摸屏的智能音箱。
谷歌助手未来将迎来新玩家,包括Anker的Zolo Mojo、Mobvoi的TicHome Mini和松下的GA10。
毫无疑问,声音优先硬件发展迅速,有望增长!
语音软件的开发
从头开始构建语音应用程序并不容易。Nuance等大公司已经向第三方开发者提供了语音识别API,但是使用这些API的成本达到了创纪录的高位,却没有取得惊人的效果。
随着语音识别技术的不断进步,语音优先应用的潜力越来越大。谷歌、亚马逊、IBM、微软、苹果、施皮奇等大公司开始以更低的价格提供各种API产品。
一些最常用的包括2016年7月发布的Google语音API、2016年11月发布的Amazon Lex和2016年11月发布的Amazon Polly。
现在,大量开发人员可以开始以合理的成本构建语音优先的应用程序。
语音生态系统
随着越来越多的语音应用和硬件催生了语音的入口,平台不仅负责分销和盈利,分析和营销自动化等第三方服务也变得非常重要。
亚马逊、谷歌、微软已经开始构建这样的生态系统,苹果也即将开始。总体技能是衡量这些生态系统成功的好方法:
薇薇安编的
1.《语音识别 一文读懂语音识别史》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《语音识别 一文读懂语音识别史》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/797655.html