当前位置:首页 > 娱乐星闻

transcribe 使用 Live Transcribe 进行实时连续转录

文本/萨加尔·萨夫拉,机器感知产品经理

根据世界卫生组织(WHO)的估计,世界上有4.66亿聋人和听力受损者。自动语音识别(ASR)作为一项关键技术,是为了让这群人获得全球信息并与他人交流而产生的。它使计算机能够检测口语,并将其转录成文本供阅读。Google ASR支持Youtube的自动字幕生成功能,幻灯片演示,电话交谈。然而,尽管在过去的几年里人工听觉系统已经得到了多次改善,但聋人和听力受损者仍然主要依靠人工抄写服务,如美国的CART、英国的Palantypist或其他国家/地区的STTR。由于此类服务费用昂贵,通常需要提前很久预订,聋人和听障人士很难参与即兴对话和社交场合。但我们相信技术可以填补这个空白,让这样的人可以轻松交流。

今天,我们宣布推出免费的Android服务Live script,将自动生成字幕的功能引入日常对话,让这类人更接近真实对话。在Google Cloud的帮助下,Live抄录可以实时提供对话字幕,支持70多种语言,覆盖全球80%以上的人口。您可以通过点击系统托盘上的辅助功能图标在任何应用程序中启用此服务。

构建实时转录

过去,基于ASR的转录系统通常需要计算密集型模型、详细的用户研究和昂贵的连接服务,所有这些都阻止了用户使用自动连续转录服务。为了解决这些问题并确保准确的实时转录,实时转录结合了广泛的用户体验(UX)研究的结果以及与语音处理服务器的平滑和可持续的连接。此外,我们需要确保与这些服务器的连接不会对用户造成过多的流量消耗。

依靠云的ASR为我们提供了更高的准确率,但我们希望降低Live抄录所需的网络流量消耗。为此,在利用AudioSet所做的前期工作的基础上,我们在基于神经网络的设备上实现了语音检测器。网络是一个图像模型,类似于我们发布的VGGish模型,可以检测语音,并自动管理与云ASR引擎的网络连接,从而最大限度地减少长期使用中的流量消耗。

用户体验

为了使实时转录尽可能直观,我们与加拉格尔大学联合开展了用户体验研究,以确保核心用户的需求得到满足,技术潜力得到最大化。我们考虑过几种不同的模式:电脑、平板、智能手机,甚至小投影仪,以迭代的方式显示听觉信息和字幕。最终,我们决定专注于智能手机模式,因为这样的设备无处不在,功能也在日益增加。

在构建了这个模型之后,我们需要解决另一个重要的问题:展现转录信心。传统上,这对用户很有帮助,我们的研究探索是否真的有必要在单词层面或短语层面展示自信。

显示转录的置信度。黄色代表高自信,绿色代表中等自信,蓝色代表低自信。白词是新的文本,等待语境处理后再最终确定置信度。左图按每个词组上色,右图按每个单词上色。1研究表明,信心着色分散了用户的注意力,但没有提供对话价值。

我们的研究表明,转录文本在不覆盖这些标志的情况下是最方便阅读的,这也巩固了以前对该领域用户体验的研究。现场转录侧重于更好地呈现文本,并用除语音之外的听觉信号来补充文本。

另一个有用的用户体验信号是用户当前环境的噪声水平。电脑在嘈杂的房间里听懂说话人说的话是一个很大的挑战,这就是所谓的鸡尾酒会问题。为了解决这个问题,我们构建了一个指示器来显示用户相对于背景噪声的说话音量。当说话人说话时,用户还可以接收即时反馈,了解麦克风的接收状态,从而调整手机的位置。

响度和噪音指示器由两个同心圆组成。明亮的内部同心圆代表噪声层,会让聋哑用户知道当前环境的噪声水平。外部同心圆代表麦克风对说话者声音的接收。两者结合后,相对差异就一目了然了

今后的工作

对于基于移动设备的自动语音转录功能,未来可能的改进包括设备上的识别、说话人分离和语音增强。如果仅仅依靠转录功能,可能会存在一些隐患,导致错误的信息传递。我们与加拉格尔大学的研究表明,如果这一功能与其他听觉信号(如语音检测和响度指示器)相结合,将会给用户的交流方式带来显著的变化。

现场转录现已分阶段在播放商店提供,所有Pixel 3设备都预装了该功能的最新版本。您可以通过辅助功能设置启用实时转录。您也可以阅读关键字了解更多信息。

表示感谢/感激

“实时转录”由研究人员切特·格内吉(Chet Gnegy)、迪米特里·卡内夫斯基(Dimitri Kanevsky)和贾斯汀·保罗(Justin S. Paul)以及Android系统可访问性团队成员布莱恩·凯姆勒(Brian Kemler)、托马斯·林(Thomas Lin)、亚历克斯·黄(Alex Huang)、杰奎琳·黄(Jacqueline Huang)、本·钟(Ben Chung)组成,由、、杰西·林(Jessie我们还要感谢加拉格尔大学的亲密伙伴克里斯蒂安·沃格勒、诺曼·威廉姆斯和葆拉·塔克。

1眼尖的读者会发现,在上面的视频中,Obeidat博士使用了短语级置信度模型。

1.《transcribe 使用 Live Transcribe 进行实时连续转录》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《transcribe 使用 Live Transcribe 进行实时连续转录》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1213679.html

上一篇

乾隆有多少子女

下一篇

令妃是什么样的人

enet学院 ENet —一种针对实时语义分割的深度神经架构

  • enet学院 ENet —一种针对实时语义分割的深度神经架构
  • enet学院 ENet —一种针对实时语义分割的深度神经架构
  • enet学院 ENet —一种针对实时语义分割的深度神经架构
苹果应用追踪用户数据 为什么这说原因是

苹果应用追踪用户数据 为什么这说原因是

根据《华盛顿邮报》进行的一项隐私实验,当后台应用程序被允许刷新时,一些iOS应用程序将使用该功能定期向跟踪公司发送数据。包括手机号码、邮箱地址、地理位置、IP地址等信息。在为期一周的测试中,总共发现了5400个跟踪器,其中大部分都在使用中。网友...

苹果追踪用户数据什么情况苹果是如何追踪用户数据怎么做到

苹果追踪用户数据什么情况苹果是如何追踪用户数据怎么做到

苹果隐私数据苹果追踪用户数据的消息出来后,引起了关注。现在有用户说不敢用苹果手机,因为隐私现在可以追踪,甚至睡觉或者不用手机的时候数据都会发出来。这是真的吗?真的很震撼!来源:苹果跟踪用户数据是真的吗?具体是什么情况?苹果iOS app存在使用...

红包活动 用户运营之究竟如何做好的上线红包活动(干货案例分享)

  • 红包活动 用户运营之究竟如何做好的上线红包活动(干货案例分享)
  • 红包活动 用户运营之究竟如何做好的上线红包活动(干货案例分享)
  • 红包活动 用户运营之究竟如何做好的上线红包活动(干货案例分享)

哈尔滨公交查询 哈尔滨公交实时查询超方便!零下20℃在家就能等公交!

  • 哈尔滨公交查询 哈尔滨公交实时查询超方便!零下20℃在家就能等公交!
  • 哈尔滨公交查询 哈尔滨公交实时查询超方便!零下20℃在家就能等公交!
  • 哈尔滨公交查询 哈尔滨公交实时查询超方便!零下20℃在家就能等公交!
在线节拍器 厉害:在线音乐教育带千万用户看视频学乐器!

在线节拍器 厉害:在线音乐教育带千万用户看视频学乐器!

在去Midi音乐学校找老师开发音乐教育课程之前,张彤心里没有底。对方是国内知名的音乐学校,而对方只是一家新成立的创业公司。"他们是否允许合作还不得而知。"。 然而,在得知张彤设立的Finger为普通用户提供在线音乐教育后,Midi教育总监李国标...

B站十周年 B站现在有多少用户了什么情况

B站十周年 B站现在有多少用户了什么情况

今天是bilibili十周年。这个被用户称为“小破站”的网站有1.5亿活跃用户,几乎所有的年轻人都在使用它。很多人都在真情实感的庆祝bilibili的生日,官方微博也发来了博客表示感谢:bilibili 10岁生日,感谢文体明星的祝福~十年,感...

华为p30手机价格 华为P30刚出没多久,就把价格降到这么低,老用户纷纷吐槽!

  • 华为p30手机价格 华为P30刚出没多久,就把价格降到这么低,老用户纷纷吐槽!
  • 华为p30手机价格 华为P30刚出没多久,就把价格降到这么低,老用户纷纷吐槽!
  • 华为p30手机价格 华为P30刚出没多久,就把价格降到这么低,老用户纷纷吐槽!