Alexa科学家声称音频水印技术具有接近100%的检测准确率

导读你听说过音频水印(没有双关意思)吗?这是在PC上添加可识别且独特的声音模式的过程,是网络视频主机、机顶盒、媒体播放器发布版权曲目的主要

你听说过音频水印(没有双关意思)吗?这是在PC上添加可识别且独特的声音模式的过程,是网络视频主机、机顶盒、媒体播放器发布版权曲目的主要方式。然而,水印方案在噪声环境中不是特别可靠,例如当通过扬声器广播所讨论的音频时。由此产生的噪声和干扰——在学术文献中被称为“第二屏幕”问题——严重扭曲了水印,并引入了检测器通常难以协调的延迟。

然而,亚马逊的研究人员认为,他们创造了一种新颖的解决方案,他们在一篇论文(“具有调制自相关的航空音频水印”)中描述了这种解决方案,该论文发表在预先打印的服务器Arxiv上,并附有一篇博客文章。该团队声称,他们的方法——他们将在5月份的国际声学、语音和信号处理会议上详细说明——可以检测到水印增加到大约两秒钟的音频,具有“几乎完美的准确性”,即使扬声器和检测器之间的距离超过20英尺。

更好?与传统的声学指纹识别方法不同,传统的声学指纹识别方法需要为每个实例存储单独的指纹,并且计算复杂度与指纹数据库成正比。研究人员的方法具有恒定的复杂性,这使得它非常适合蓝牙等低功耗设备。耳机。

亚马逊Alexa Speech Group的研究科学家、该论文的合著者袁元泰写道:“我们的算法可以补充声学指纹技术,这可以防止Alexa在听到媒体提到她的名字时被误唤醒。“我们还假设音频水印可以提高Alexa自动语音识别系统的性能。Alexa播放的音频内容——音乐、有声读物、播客、无线电广播和电影——可以动态添加水印,因此支持Alexa的设备可以更好地测量房间混响并过滤掉回声。

怎么样?正如Tai解释的那样,该模型采用了“扩频”技术,水印能量在时间和频率上传播,使得人耳听不到,也不受后处理(如压缩)的影响。并且它从固定持续时间的噪声块中生成水印,每个噪声块将其自己的不同模式引入主机音频信号中的选定频率分量。

传统的检测器将得到的噪声块序列(解码密钥)与参考拷贝进行比较。然而,Tai和他的同事采用了不同的方法:他们的算法多次将噪声模式嵌入音频信号,并与自己进行比较。泰解释说,因为信号通过相同的声学环境,模式的实例以类似的方式被扭曲,使得它们能够被直接比较。

“检测器利用了声道造成的失真,而不是对抗它,”他补充道。

这不是一个完美的解决方案——它需要较短的噪声模式,这与较低的检测精度有关,并且当目标音频包括音乐时,节奏有时会过于模仿重复的噪声模式。然而,该团队表示,通过重复噪声阻挡模式,可以在很大程度上缓解这些问题——它们随机反转一些块,降低块通常增加的幅度,反之亦然。

然后,解码密钥变成二进制值序列而不是噪声块(浮点值序列),指示给定的噪声块是否被反转。(与噪声阻断模式相比,它们在检测器相位上是相反的。实验中,团队表示,他们算法的性能几乎达到了100%的检测准确率,水印长度为1.6秒。

免责声明:本文由用户上传,如有侵权请联系删除!