无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好

贝壳号 | 发布于2021-05-30

新智元导读】Facebook在语音识别上又出重磅新作,继wav2vec, wav2vec 2.0以来,又出完全不需要监督数据的wav2vec-U,小众语言也能用语音识别啦!

相比显示器、鼠标、键盘这些传统的人机交互方式以外,随着语音识别技术的逐渐成熟,和电子产品进行「对话」也逐渐成为一种稀松平常的人机交互。

无论是给计算机或其他设备下达指示,还是回答用户的问题,语音识别在各个方面让电子产品的使用变得更加容易,无需学习,想要干什么只要跟他「说」就可以了。

但是直到今天为止,语音识别这项技术还是只适用于全球数千种语言中的一小部分,因为高质量的语音识别系统需要从大量转录的语音音频中训练得到。

这些数据并不适用于所有的语言、方言和说话风格。

不同场景下的语音也存在大量的差异,例如,英语小说的转录录音,对于帮助机器学习理解一个点菜的巴斯克人或者一个做商业演讲的菲律宾人,几乎没有任何帮助。

无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好

为了解决这个难题,Facebook开发了一个全新的语音识别系统,wav2vec Unsupervised (wav2vec-U) ,这是一种完全不需要转录数据的语音识别系统的方法。

它的性能已经能够和几年前最好的监督模型匹敌,而这些模型需要将近1000小时的转录语音的训练数据。

wav2vec-U已经成功在斯瓦希里语、塔塔尔语等多种小众语言上进行测试,因为缺乏大量的标记训练数据,这些语言目前还没有高质量的语音识别模型。

Wav2vec-U 是 Facebook 人工智能在语音识别、自主学习和无监督机器翻译方面多年努力的结果,也是建造机器的一个重要步骤,机器可以通过学习他们的观察来解决各种各样的任务。

作者们认为,这项工作将使语音技术可以为世界上更多人所用

图灵奖得住Yann LeCun也发推特祝贺,表示这是足以匹敌监督学习的非监督模型。

无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好

模型原理

Wav2vec-U 模型纯粹从录制的语音音频和未配对的文本,不再需要转录

与之前的 ASR 系统相比,Wav2vec-U的框架采用了一种新颖的方法: 该方法首先从未标记的音频中学习语音的结构。

使用自监督模型 wav2vec 2.0和一个简单的 K平均算法方法,能够将录音分割成与单个声音松散对应的语音单元。(例如,单词 cat 包括三个发音: “/k/”、“/AE/”和“/t/”。)

为了学习识别音频录音中的单词,则训练了一个由生成器和鉴别器组成的对抗网络(GAN)。生成器采用embedding在自监督表示中的每个音频片段,并预测对应于语言中某个声音的音素。

生成器的训练方式是试图欺骗鉴别器,然后评估预测的音素序列看起来是否真实。在训练的初始阶段,识别的效果非常差,但随着时间的推移,准确率也不断提高。

无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好

判别器(discriminator)本身也是一个神经网络,通过训练它判别生成器的输出,来判断是否是真实存在的还是 伪造的音素。

这样训练的到的判别器就学会了区分生成器的语音识别输出和真实文本。

wav2vec-U 在 TIMIT 基准上对它进行了评估,与第二好的无监督方法相比,它将错误率降低了57% 

无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好

除此之外,研究人员还对将 wav2vec-U 与 Librispeech 基准上的监督模型进行性能对比。在 Librispeech 基准上,监督模型通常使用960小时的转录语音数据来训练。

在没有标注数据的情况下, wav2vec-U 与几年前的最新技术一样准确。这表明语音识别系统在没有监督的情况下可以达到很好的质量。

无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好

TIMIT 和 Librispeech主要测量了模型在识别英语语音的性能,大量的、广泛可用的标记数据集能够产生足够好的语音识别技术

然而,监督模型只能对有标注数据的场景、语言才有效。

对于那些几乎不存在标记数据的语言来说,非监督语音识别才是最有效的方式。

因此,研究人员在其他语言上尝试了这个模型方法,比如斯瓦希里语、鞑靼语和吉尔吉斯语。

无监督学习站起来了!Facebook第三代语音识别wav2vec-U,匹敌监督模型,Lecun看了都说好

像语音识别这样的人工智能技术不应该只让那些世界上使用最广泛的语言之一的人受益。减少AI模型对注释数据的依赖是扩大对这些工具的访问的一个重要部分。

Facebook 的人工智能最近在这方面取得了快速的进步,先是引入了 wav2vec,然后是 wav2vec 2.0,现在是 wav2vec-U。

最重要的是,人们也并不一定是通过标签数据来学习,而是通过倾听周围的人来学习许多与语言相关的技能。这表明有一种更好的方法来训练语音识别模型,这种模型不需要大量的标记数据。开发这些更智能的系统是一个伟大、长期的科学愿景, wav2vec-U将是重要的一步。

编辑按:本文转载至微信公众号 “新智元”贝壳投研经授发布

飞鲸投研从多维度分析,整理了一份《成长50》的名单,可以关注同名公众号:"飞鲸投研":feijingtouyan,进行领取(点击复制)

该文观点仅代表作者本人,飞鲸投研系信息发布平台

/阅读下一篇/

姚期智亲自授课!清华大学成立量子信息班,首批计划招收20人

热门推荐