近日,加拿大多伦多警方发布紧急寻人启事:请求公众协助寻找25岁中国女留学生Qunglian Liu(Alice)。根据警方通报,Liu最后一次被看到是在9月14日晚,当时驾驶一辆黑色路...
10月15日,Google在纽约召开秋季新品发布会,推出旗下新款智能手机Pixel 4系列手机、Pixel Buds耳机、Pixelbook笔记本等新品。一起来领略发布会实况吧!早上好。 早上...
1.全球英语课文-现代英语之路 16世纪末,大约有500万到700万人说英语。他们几乎都住在英国。在下一个世纪的晚些时候,来自英国的人进行了征服世界其他地方的航行,正因...
3月29日,谷歌翻译的Android和iOS App更新到5.8版。对于国内用户来说,新版谷歌翻译App终于可以正常使用了。 @Google Blackboard说: 新版谷歌翻译App在英文和韩文之...
科技巨头谷歌在谷歌助手上推出了文章阅读功能,适合安卓5.0及以上版本的用户。用户只需要说“嘿谷歌,看”或者“嘿谷歌,看这个页面”,谷歌助手就会为用户阅读屏幕上的...
-
然后“文曲·尹稚”会搜索该设备内置的歌曲数据库,寻找相似的嵌入序列,这些序列也是使用相同的神经网络处理流行歌曲生成的。“数据库搜索”使用两阶段算法来识别匹配的歌曲。第一阶段,使用快速但不准确的算法搜索整个歌曲数据库,找出一些可能的候选歌曲;在第二阶段,详细分析每首候选歌曲,以找出正确的匹配歌曲(如果有的话)。
匹配,阶段 1:找出合适的候选歌曲:对于每次嵌入,“闻曲知音” 都会对设备内置数据库中的歌曲进行最邻近搜索以找出类似嵌入。数据库使用空间分割和向量量化混合法,以有效搜索数百万嵌入向量。由于音频缓冲区非常嘈杂,因此只能进行近似搜索,而且并非每次嵌入都能在数据库中找到正确歌曲的邻近匹配。但是,在整个音频片断中找到正确歌曲的几个邻近嵌入的机率非常高,因此,搜索范围会缩小到获得多次嵌入的一小组歌曲。匹配,阶段 2:最终匹配:由于上述数据库搜索方法为近似搜索,“闻曲知音” 可能无法找到我们查询的某些嵌入附近的歌曲嵌入。因此,为获得准确的相似度分数,“闻曲知音” 会检索数据库中每首歌所有可能相关的嵌入,以填补 “缺口”。然后,结合音频缓冲区的嵌入序列和设备内置数据库歌曲中的另一个嵌入序列,“闻曲知音” 会两两评估其相似性分数并相加,以得到最终的匹配分数。用一系列的嵌入代替单一的嵌入,对于“听歌听友”匹配歌曲的准确性非常重要。指纹识别神经网络仅通过单次嵌入来识别歌曲是不够准确的——每次嵌入都会产生大量的误报。但是结合多次嵌入的结果,很容易消除误报,因为每一次嵌入都可以匹配到正确的歌曲,而误报只匹配一两次输入音频的嵌入。
扩展“声音搜索”服务器的“听音乐”功能
到目前为止,我们已经详细介绍了如何将歌曲与设备内置数据库中的歌曲进行匹配。最大的挑战是,很多歌曲会产生上千次的假阳性结果,从“和朋友一起唱歌”到上亿首歌曲的“声音搜索”。为了在不做其他改变的情况下补偿这一点,我们不得不提高识别阈值,这意味着如果我们想要得到确认的匹配结果,我们需要识别更多的音频。不过新版“语音搜索”服务器的目标是比“闻音乐和朋友”匹配更快,而不是更慢。因此,我们不希望用户等待一个结果超过10秒。
由于“声音搜索”是服务器端系统,它不受处理和存储数据的约束,就像“听歌”一样。因此,我们在指纹识别方面做了两项重大改变,这两项改变都以牺牲服务器资源为代价提高了准确性:
我们将所用神经网络的大小增加了四倍,并将每次嵌入从 96 维增加到 128 维,这就减少了神经网络将高维输入音频打包成低维嵌入所需的工作量。这对提高第二阶段的搜索质量至关重要,因为其十分依赖于原始神经网络输出的准确性。我们将嵌入密度增加了一倍,事实证明,每 0.5 秒(而不是 1 秒)进行一次音频指纹识别并不会显著降低个别嵌入的质量,由于可用于匹配的嵌入数量增加一倍,质量反而有很大提升。我们还决定根据歌曲的流行程度来加权指数。事实上,我们降低了流行歌曲的匹配阈值,提高了未知歌曲的匹配阈值。总之,这意味着我们可以几乎无限期地向数据库中添加更多(未知)歌曲,而不会显著降低识别速度。
结论
对于“听音乐,认识朋友”,我们原本打算用机器学习来创建一个音频指纹识别系统,不仅要功能强大,还要设计得足够简单,完全可以在手机上运行。但实际上,我们已经成功打造了一款优秀的全方位音频指纹识别系统,并将其设计思路扩展到服务器端的“声音搜索”系统,虽然“声音搜索”面临的挑战与“听音乐”不同。
当音乐声音很小或者在很嘈杂的环境下,我们每次都无法匹配,这意味着我们还有空的很大提升,但是我们坚信可以提高系统的识别速度。我们将继续迎接这些挑战,目标是提供新一代音乐识别技术。想知道下次放什么音乐,试试!您可以在主屏幕上创建如下快捷方式:
-
然后“文曲·尹稚”会搜索该设备内置的歌曲数据库,寻找相似的嵌入序列,这些序列也是使用相同的神经网络处理流行歌曲生成的。“数据库搜索”使用两阶段算法来识别匹配的歌曲。第一阶段,使用快速但不准确的算法搜索整个歌曲数据库,找出一些可能的候选歌曲;在第二阶段,详细分析每首候选歌曲,以找出正确的匹配歌曲(如果有的话)。
匹配,阶段 1:找出合适的候选歌曲:对于每次嵌入,“闻曲知音” 都会对设备内置数据库中的歌曲进行最邻近搜索以找出类似嵌入。数据库使用空间分割和向量量化混合法,以有效搜索数百万嵌入向量。由于音频缓冲区非常嘈杂,因此只能进行近似搜索,而且并非每次嵌入都能在数据库中找到正确歌曲的邻近匹配。但是,在整个音频片断中找到正确歌曲的几个邻近嵌入的机率非常高,因此,搜索范围会缩小到获得多次嵌入的一小组歌曲。匹配,阶段 2:最终匹配:由于上述数据库搜索方法为近似搜索,“闻曲知音” 可能无法找到我们查询的某些嵌入附近的歌曲嵌入。因此,为获得准确的相似度分数,“闻曲知音” 会检索数据库中每首歌所有可能相关的嵌入,以填补 “缺口”。然后,结合音频缓冲区的嵌入序列和设备内置数据库歌曲中的另一个嵌入序列,“闻曲知音” 会两两评估其相似性分数并相加,以得到最终的匹配分数。用一系列的嵌入代替单一的嵌入,对于“听歌听友”匹配歌曲的准确性非常重要。指纹识别神经网络仅通过单次嵌入来识别歌曲是不够准确的——每次嵌入都会产生大量的误报。但是结合多次嵌入的结果,很容易消除误报,因为每一次嵌入都可以匹配到正确的歌曲,而误报只匹配一两次输入音频的嵌入。
扩展“声音搜索”服务器的“听音乐”功能
到目前为止,我们已经详细介绍了如何将歌曲与设备内置数据库中的歌曲进行匹配。最大的挑战是,很多歌曲会产生上千次的假阳性结果,从“和朋友一起唱歌”到上亿首歌曲的“声音搜索”。为了在不做其他改变的情况下补偿这一点,我们不得不提高识别阈值,这意味着如果我们想要得到确认的匹配结果,我们需要识别更多的音频。不过新版“语音搜索”服务器的目标是比“闻音乐和朋友”匹配更快,而不是更慢。因此,我们不希望用户等待一个结果超过10秒。
由于“声音搜索”是服务器端系统,它不受处理和存储数据的约束,就像“听歌”一样。因此,我们在指纹识别方面做了两项重大改变,这两项改变都以牺牲服务器资源为代价提高了准确性:
我们将所用神经网络的大小增加了四倍,并将每次嵌入从 96 维增加到 128 维,这就减少了神经网络将高维输入音频打包成低维嵌入所需的工作量。这对提高第二阶段的搜索质量至关重要,因为其十分依赖于原始神经网络输出的准确性。我们将嵌入密度增加了一倍,事实证明,每 0.5 秒(而不是 1 秒)进行一次音频指纹识别并不会显著降低个别嵌入的质量,由于可用于匹配的嵌入数量增加一倍,质量反而有很大提升。我们还决定根据歌曲的流行程度来加权指数。事实上,我们降低了流行歌曲的匹配阈值,提高了未知歌曲的匹配阈值。总之,这意味着我们可以几乎无限期地向数据库中添加更多(未知)歌曲,而不会显著降低识别速度。
结论
对于“听音乐,认识朋友”,我们原本打算用机器学习来创建一个音频指纹识别系统,不仅要功能强大,还要设计得足够简单,完全可以在手机上运行。但实际上,我们已经成功打造了一款优秀的全方位音频指纹识别系统,并将其设计思路扩展到服务器端的“声音搜索”系统,虽然“声音搜索”面临的挑战与“听音乐”不同。
当音乐声音很小或者在很嘈杂的环境下,我们每次都无法匹配,这意味着我们还有空的很大提升,但是我们坚信可以提高系统的识别速度。我们将继续迎接这些挑战,目标是提供新一代音乐识别技术。想知道下次放什么音乐,试试!您可以在主屏幕上创建如下快捷方式:
-
然后“文曲·尹稚”会搜索该设备内置的歌曲数据库,寻找相似的嵌入序列,这些序列也是使用相同的神经网络处理流行歌曲生成的。“数据库搜索”使用两阶段算法来识别匹配的歌曲。第一阶段,使用快速但不准确的算法搜索整个歌曲数据库,找出一些可能的候选歌曲;在第二阶段,详细分析每首候选歌曲,以找出正确的匹配歌曲(如果有的话)。
匹配,阶段 1:找出合适的候选歌曲:对于每次嵌入,“闻曲知音” 都会对设备内置数据库中的歌曲进行最邻近搜索以找出类似嵌入。数据库使用空间分割和向量量化混合法,以有效搜索数百万嵌入向量。由于音频缓冲区非常嘈杂,因此只能进行近似搜索,而且并非每次嵌入都能在数据库中找到正确歌曲的邻近匹配。但是,在整个音频片断中找到正确歌曲的几个邻近嵌入的机率非常高,因此,搜索范围会缩小到获得多次嵌入的一小组歌曲。匹配,阶段 2:最终匹配:由于上述数据库搜索方法为近似搜索,“闻曲知音” 可能无法找到我们查询的某些嵌入附近的歌曲嵌入。因此,为获得准确的相似度分数,“闻曲知音” 会检索数据库中每首歌所有可能相关的嵌入,以填补 “缺口”。然后,结合音频缓冲区的嵌入序列和设备内置数据库歌曲中的另一个嵌入序列,“闻曲知音” 会两两评估其相似性分数并相加,以得到最终的匹配分数。用一系列的嵌入代替单一的嵌入,对于“听歌听友”匹配歌曲的准确性非常重要。指纹识别神经网络仅通过单次嵌入来识别歌曲是不够准确的——每次嵌入都会产生大量的误报。但是结合多次嵌入的结果,很容易消除误报,因为每一次嵌入都可以匹配到正确的歌曲,而误报只匹配一两次输入音频的嵌入。
扩展“声音搜索”服务器的“听音乐”功能
到目前为止,我们已经详细介绍了如何将歌曲与设备内置数据库中的歌曲进行匹配。最大的挑战是,很多歌曲会产生上千次的假阳性结果,从“和朋友一起唱歌”到上亿首歌曲的“声音搜索”。为了在不做其他改变的情况下补偿这一点,我们不得不提高识别阈值,这意味着如果我们想要得到确认的匹配结果,我们需要识别更多的音频。不过新版“语音搜索”服务器的目标是比“闻音乐和朋友”匹配更快,而不是更慢。因此,我们不希望用户等待一个结果超过10秒。
由于“声音搜索”是服务器端系统,它不受处理和存储数据的约束,就像“听歌”一样。因此,我们在指纹识别方面做了两项重大改变,这两项改变都以牺牲服务器资源为代价提高了准确性:
我们将所用神经网络的大小增加了四倍,并将每次嵌入从 96 维增加到 128 维,这就减少了神经网络将高维输入音频打包成低维嵌入所需的工作量。这对提高第二阶段的搜索质量至关重要,因为其十分依赖于原始神经网络输出的准确性。我们将嵌入密度增加了一倍,事实证明,每 0.5 秒(而不是 1 秒)进行一次音频指纹识别并不会显著降低个别嵌入的质量,由于可用于匹配的嵌入数量增加一倍,质量反而有很大提升。我们还决定根据歌曲的流行程度来加权指数。事实上,我们降低了流行歌曲的匹配阈值,提高了未知歌曲的匹配阈值。总之,这意味着我们可以几乎无限期地向数据库中添加更多(未知)歌曲,而不会显著降低识别速度。
结论
对于“听音乐,认识朋友”,我们原本打算用机器学习来创建一个音频指纹识别系统,不仅要功能强大,还要设计得足够简单,完全可以在手机上运行。但实际上,我们已经成功打造了一款优秀的全方位音频指纹识别系统,并将其设计思路扩展到服务器端的“声音搜索”系统,虽然“声音搜索”面临的挑战与“听音乐”不同。
当音乐声音很小或者在很嘈杂的环境下,我们每次都无法匹配,这意味着我们还有空的很大提升,但是我们坚信可以提高系统的识别速度。我们将继续迎接这些挑战,目标是提供新一代音乐识别技术。想知道下次放什么音乐,试试!您可以在主屏幕上创建如下快捷方式:
上网查查,有病没病! 站着不动也是绝症! 你咳一咳,再上网查查,绝对是肺结核! 我发烧了,上网查一下肯定是埃博拉,半天就凉了! 留个鼻涕,上网查查。是脑膜炎。你的大脑在爆浆! ...
这篇文章将是我们格莱德系列的最后一篇文章。 事实上,在撰写本系列的第一篇文章时,Glide发布了4.0.0的RC版本。当时因为一直在学习Glide 3.7.0版本,而RC版本不稳定,所...