分享到微博 分享到人人 分享到LinkedIn 分享到Email
错误率低至6.3%,微软新创语音识别里程碑

为了让计算机能像人类一样自然地听懂并理解语言,微软的研究员们在计算机语音识别和理解的技术上,又向前迈进了里程碑式的一大步。

微软首席语音科学家黄学东在论文中表示,我们在近期的产业标准Switchboard语音识别基准测试中,实现了词错率(WER)低至6.3%的新突破,且为目前该领域内错误率最低。

黄学东

相关论文已于周二发表。论文中提到“我们最好的单个系统在 NIST 2000 Switchboard 集上取得了 6.9% 的词错率。我们相信这是目前单个系统能取得的最好表现。在Switchboard 测试数据上,多个语音模型的组合将进一步使词错率降至 6.3%。”

论文介绍

先给大家附上相关论文(由机器之心提供翻译):

微软 2016 对话语音识别系统(The Microsoft 2016 Conversational Speech Recognition System)

摘要

我们描述了微软的对话语音识别系统,在该系统中我们结合了近期在基于神经网络的声学和语言模型上的进展,推进了在 Switchboard 识别任务上的顶尖成果。受到机器学习集成技术(machine learning ensemble techniques)的启发,该系统使用了一系列卷积和循环神经网络。I-vector 建模和 lattice-free MMI 训练为所有声学模型架构带来了显著的提升。使用了多个前向和反向运行RNNLM 的语言模型重新计分(Language model rescoring)与基于后验的词系统结合为系统性能带来了 20% 的增益。最好的单个系统使用 ResNet 架构声学模型和 RNNLM rescoring,在 NIST 2000 Switchboard 任务上实现了 6.9% 的词错率。结合系统取得了 6.3% 的词错率,代表了在这一基准任务上对先前成果的改进。

导语

近年,由于对卷积和循环神经网络的精心设计和优化,在降低语音识别错误率上我们已经看到了快速发展。尽管我们对基础架构已经很好地认识一段时间了,但它近期才成为了进行语音识别的最好模型。惊人的是,对声学模型和语言模型而言都是如此。相比于标准的前馈 MLP 或 DNN,这些声学模型有能力对大量带有时间不变性的声学环境建模,而且卷积模型还能应对频率不变性的情况。在语言模型中,循环模型通过对连续词表征(continuous word representations)的归纳能力,在传统的 N-gram 模型上实现了进步。同时,集成学习(ensemble learning)已经在多种神经模型得到了普遍的应用,从而通过减少偏差和方差改进稳健性。在此论文中,我们广泛地使用模型的集成,同时也改进单个组件模型,从而推进在对话电话语音识别(CTS)中的进展,CTS 从上世纪 90 年代就已经成为了检验语音识别任务的一项基准。这一系统的主要特征包括:

1. 对卷积神经网络和长短期记忆(LSTM)网络这两种基础声学模型架构的集成,每个架构也有多种变体;

2. 在 LACE 卷积神经网络中的一个注意机制,其可以有区别地为不同距离的语境赋予权重;

3. Lattice-free MMI 训练;

4. 在所有模型中使用基于 i-vector 的改编版本;

5. 在前向和反向过程中都运行带有多个循环神经网络语言模型的 language model rescoring;

6. 融合网络系统组合与最好系统子集搜索的耦合,这正是在有许多候选系统的情况下所需的

该论文在其他部分对该系统进行了详细描述。Section 2 描述了 CNN 和 LSTM 模型。Section 3 描述了我们对 i-vector 改编版的部署。Section 4 展现了 lattice-free MMI 训练过程。语言模型rescoring 是该系统的一个重大部分,在 Section 5 中有描述。实验结果呈现在 Section 6 中,随后是对相关工作和结论的讨论。

表 4. 在 eval 2000 set 上的来自 i-vector 和 LFMMI 的性能改进

表 5. 在 eval 2000 set 上不同声学模型的词错率。除非特别标注,所有的模型都在 2000 小时的数据上进行训练,有 9000 个 senones(聚类的结果)。

比深更深的深层神经网络

上周,IBM在旧金山举办的Interspeech会议(国际语音传播和技术大会)上,宣布他们实现了6.6%的错误率。这无疑让人惊叹,因为在二十年前,世界上最好的语音识别系统所能实现的最低错误率还高达43%。黄学东博士认为,“这一新的里程碑得益于过去 20 年中,各种人工智能研发团队与组织研究出的各种新技术的碰撞。”

如今,很多研究员坚信,飞速发展的技术能很快实现让计算机能像人类一样完全理解人类自己的语言。而这个场景正如微软向大家所描绘的个人计算未来图景相呼应。例如微软在Windows 10中提供的智能个人助理Cortana(微软小娜),或者是Skype Translator实时语音翻译技术,还有今年Build开发者大会上推出的包含语言及语音在内的一系列智能API服务——微软认知服务(Microsoft cognitive services)。

针对语音的研究也对微软的人工智能战略意义重大。语音识别技术更像是一个人工智能的入口,它能让计算机更准确的理解用户的需求,并作出回应。这也让构建一个能够帮助人类工作的,会听、会说、会看、会理解的智能系统愿景,不再只是空想。

IBM和微软都承认深层神经网络极大地促进了近年来语音识别技术的快速发展。过去十几年来,计算机科学家们都在努力让计算机能像人类一样看懂图像,理解语音与语言。但直到现在,这些识别系统仍存在着一些不可避免的误差。

类似于人脑,神经网络包含多级非线性处理层。从理论上说,越多的层级应该能带来越好的学习结果及准确度。但实际实验中的最大挑战是,在通过每一层级的反传训练中,反穿监督信号幅度会迅速衰减,这让整个神经网络系统的训练极为困难。去年12月,微软亚洲研究院的研究员运用了一种称之为“深层残差网络(deep residual networks)”的系统,重构了学习的过程,并重新定向了深层神经网络中的信息流,成功解决了此前深层神经网络层级与准确度之间的矛盾问题,最终赢得了ImageNet的计算机视觉挑战,并使得系统错误率低至3.57%,远低于人眼辨识的5.1%的错误率。

微软研究员们在深度学习上取得的另一个重要成就就是开源的深度学习工具包CNTK,它在面对超大规模深度学习的运算需求时,在多GPU下表现极佳。CNTK实现了复杂的最优化,极大的提高了深度学习算法的运行速度,并采用了Block Momentum并行技术,在多GPU下,可以同时保证大规模机器学习的精度和效率。

虽然GPU一开始主要用于计算机图像处理,但近几年,研究员们发现它们对于运行如语音识别和图像识别这样的复杂算法也具有显著作用。微软早已在人工智能个人助理微软小娜开发中运用了CNTK。通过结合运用CNTK和GPU群组,小娜(Cortana)现在已可以在相同时间段内接收之前10倍以上的数据。

Geoffrey Zweig

主要负责Switchboard语音识别研究的微软首席研究员及微软语音对话组的经理Geoffrey Zweig认为,公司之所以能在语音识别领域做到行业领先,主要得益于研究员们出色的专业能力。正是因为这些拥有高水准专业能力的研究员,才会让新训练算法得到发展,才会有高度优化的神经网络模型,才会实现如CNTK的各种工具的发展。“我们的研究团队拥有长期的语音技术研发经历和经验,这正推动着语音识别技术的不断发展。” Zweig说道。

对话即平台战略

黄学东博士补充说道,这次技术突破不仅是语音识别技术的里程碑,这也是微软在人工智能研究之路上的一个重要标志。微软在人工智能发展策略中关键的一环就是对话即平台(Conversation as a Platform, CaaP)战略。微软在今年的Build开发者大会上就曾强调了“对话即平台”战略。在会议中,微软CEO 萨提亚·纳德拉提到,对话即平台战略将会对未来的计算体验产生重大影响,就像当初图形用户界面所带来的影响一样——“这个概念很简单,但它带来的影响却不容小觑。这是将人类语言的力量,更普遍的应用到我们的计算体验上。” 纳德拉说道。