文本|吴俊余

美国天才科学作家詹姆斯·弗莱霍斯以“智能语音时代”为题描述了语音技术对人们的影响。

他的副标题很有意思——商业竞争,技术创新,虚拟永生。

在他看来,每十年左右,人们与技术的互动方式就会发生根本性的变化。数十亿美元的财富将“等待”定义新时代范式的公司,而落后者将破产。

语音正在成为影响现实的通用遥控器,成为几乎可以控制任何技术设备的手段。语音打破了世界上一些最有价值公司的商业模式,并为新的应用创造了机会。

这一次,百度地图用语音定制展示了品牌营销和技术积累的双重能力。其中,语音技术将广泛应用于未来的ToB和ToC领域空。

一个

品牌营销创新

过去地图行业经常通过明星语音套餐找到明星平台,推出品牌活动。

这个策略真的很有效。事实上,汤唯和林志玲都很受用户欢迎。但是要知道明星粉丝毕竟圈子有限,明星语音可能只会吸引一部分粉丝用户。如果我们想真正扩大圈子,实现营销突破,我们可能必须采取一些其他的策略。

但有趣的是,9月19日,百度地图发布了语音定制功能,直接推出了用户定制的专属语音包。

定制方法很简单。打开百度地图App,唤醒“小度”说“录下我的声音”,或者在百度地图首页点击“旅行助手”进入“语音定制”即可开始语音定制之旅。在安静的环境下,按照百度地图指南,读出漫画、电影台词等有趣的录音文字,等待20分钟左右,就可以拥有自己专属的语音包。

百度地图事业部总经理李颖

最后可以用自己的语音包代替其他的明星语音包,可以用在智能语音导航、智能语音交互、百度地图景点导航等所有场景中。

让用户在使用地图时听自己的声音。这可能是每个人都感兴趣的尝试。这次尝试的有趣之处在于:

1.满足新鲜感;明星语音是市面上大部分手机地图的常规操作。由于传输机制不同,人们听自己的声音和录自己的声音也不同。这种“奇耻大辱”的感觉,往往比明星的声音更有趣。

2.打破圈子;毕竟明星声音只是部分粉丝群体使用,但大家对自己的声音都很感兴趣。他们不花一分钱请明星代言,也不针对少数粉丝用户,而是直接用技术手段覆盖所有用户群体。这个策略可以用四两个来形容。

可以说,这不仅仅是一次营销活动,更是一次技术示范。两者结合得很好,

很少有品牌营销能真正释放技术能力,但百度地图这次做到了。它让技术和营销变得软硬兼施。

语音技术的飞跃

这个功能主要使用百度的原创风格转移技术Meitron模型。

风格转移的概念起源于意象场的概念,简单来说就是把一个画面的艺术风格运用到另一个画面上。

实际上,语音的风格转移也称为“语音克隆”、“多说话人”、“风格转移”和“语音转换”。

发音的风格很难转移。

因为深度网络对于语音处理来说比较困难。一方面没有图像和文本领域的研究那么热门,另一方面语音所拥有的信息很难在高维隐藏空之间进行编码。在一个语音时间序列中,以下信息是混合的:说话人特征。);语言内容;副语言特征.

2017年,美国一篇题为《风格表征:端到端语音合成中未保存的风格建模、控制和传递》的学术论文,谈到了风格传递。

百度地图采用的Meitron模型具有说话人音色转换、多情感阅读和韵律风格传递三个方面的特点,大大降低了个性化语音合成的定制门槛。

要知道,以前,星图语音的录制是很麻烦的。以高德地图林志玲读音为例,其制作分为两部分。

一种是根据录音稿录制的语音内容。另一方面,高德当时找人,跟踪了林志玲几个月,亲自录音,处理原声文件提取数字特征。然后,利用通用、完善的模式合成技术,对元音、辅音和声调进行采样,通过算法实现文语转换。

这是2014年明星语音生成的处理方案——看完大概会觉得录一个音太难了。

但是,在Meitron模型下情况就不一样了。这个模式背后的技术支撑是百度脑语音技术的赋能。在AI的加持下,地图语音包的制作实现了从月级到分钟级的突破。

百度之声总设计师雷佳

该模型是目前业界领先的语音合成技术。手机可以完美再现扬声器的音色、风格和情感。

重点是,生成全部只需要20分钟。也就是说,以后不管是什么明星,他们的语音只需要在Meitron模型中运行20分钟,基本上就可以生成一个完整的导航语音包。

语音合成能力越强,未来人机交互和语义理解的可能性越大,机器阅读能力越强。

短短5年,AI支持的语音技术进步很快。百度的脑子实力可见一斑。

未来商业的结合点

其实这个品牌营销也是百度语音技术的一个示范,未来可以在ToB端和ToC端有更多的组合。

比如深度神经网络技术提供高度拟人化、流畅自然的语音合成服务,让客户的应用和设备可以畅所欲言,更具个性。

1.教育和阅读产品:使课程和讲解更加生动

在通过阅读应用阅读小说或新闻时,如果使用语音合成技术为用户提供多扬声器的阅读功能,可以解放手脚,获得更极致的阅读体验。

2.生活与服务产品:提高服务互动效率

语音合成还可以应用于出租车软件、餐厅呼叫、排队软件等场景,通过语音合成播放订单,方便用户获取通知信息。人脸识别可以用来识别客户和校对订单。

3.智能硬件产品:使人的机器活动更加生动有趣

可以集成到儿童故事机、智能机器人、平板设备等智能硬件设备中,使用户与设备的交互更加自然友好。

当然,对于百度地图本身来说,语音合成技术的使用使其人工智能地图的称号名副其实——所谓人工智能地图,是指在AI的赋能下,在交互体验、位置信息、出行服务、出行决策等方面发生的巨大变化。

对于ToC用户来说,百度地图未来会有更多的AI能力和语音交互能力,在使用过程中会变得更加便捷和智能。比如结合用户的使用习惯和当前场景,通过用户画像、深度学习等能力,为每个用户带来个性化的信息和服务推荐。

对于ToB用户来说,未来的百度地图还可以利用AI能力和语音交互能力,基于语音定位,结合人口分布、客流分析、设施分布等一系列大数据分析服务,为客户和商家服务;为规划、房地产、商业、零售等行业提供解决方案。

当“你应该回答我”的模式出现时,人与机器的对话绝不仅仅是单纯依靠逻辑的过程。语言永远不会脱离内容的外壳,人会被语言影响或感动。

未来,我们和无处不在的机器形成的世界,将是一个前所未有的、更加丰富多彩的感性世界。

詹姆斯·弗莱霍斯有这样一个想法:

在云时代,“只要简单地加上一个麦克风和一个Wi-Fi芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的布娃娃,任何装置都能利用分布在全球的几千台计算机所提供的计算能力。”这几乎意味着“万物能言”的童话世界真的实现了。

在这样的世界里,业务逻辑和产品逻辑也会有更多的变化。语音可能真的会成为地图等产品的入口之一。

-

作者|吴俊余微信官方账号|多深

作者是独立作家,微信号852405518

关注科技公司和互联网现象的解读

他曾在2015年、2016年和2018年担任钛媒体的作者

新浪创纪录2018年十大作者

2016年Pintu.com十大作家

腾讯科技2015年最具影响力的自媒体

1.《郭德纲导航 郭德纲out了,听自己的语音导航吧》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《郭德纲导航 郭德纲out了,听自己的语音导航吧》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1732040.html