分享到微博 分享到人人 分享到LinkedIn 分享到Email
Skype Translator, 梦想照进现实
——微软研究院助力Skype实现跨语言的实时对话
微软亚洲研究院
2014年6月5日

skype-translator-msr-20140605

有时候,一个梦想只需要轻轻一推,就能变成现实。

大约一年前,时任微软首席研究和战略官的Eric Rudder​​和微软研究院院长Peter Lee把这个理念带给了微软机器翻译团队。

那时,Eric和Peter一道观摩了一个研究项目的演示,该项目旨在为使用不同语言的人提供流畅的跨语言对话。这个演示向观众展现了一个十分诱人前景——将有望突破几千年来一直阻碍人类交流的语言障碍。

看罢演示,Eric和Peter深信:实现这一夙愿的时机已经成熟。而后,在雷德蒙总部由Arul Menezes领导的机器翻译团队成为担负攻坚任务的几个团队之一,负责将这一令人振奋的研究成果转化进入微软的产品中。

推进语音翻译产品化成果初现

5月27日,微软CEO Satya Nadella在美国举办的Code大会上发言时,特别谈到了这个团队迄今为止所取得的成果,并邀请Skype副总裁Gurdeep Pall上台首次公开演示了Skype Translator应用。在演示中,说英语的Gurdeep与说德语的微软员工Diana Heinrichs在使用该应用后实现了流畅的实时对话。

点击观看视频

此次演示的成功展现了微软研究院机器翻译团队在稳步推进产品转化的过程中所取得的阶段性成果。

“我们认为,语音翻译是我们一直所从事的文字翻译的一个很自然的演进,” 机器翻译团队项目经理Chris Wendt说。他一直为推动这一方面的产品孵化努力着。

“这是一个激动人心的项目,”他说道:“而且,我们也清楚地认识到,在Skype中加入这项功能,使人们得以在语音翻译的帮助下进行自由交谈,将成为这一技术的杀手级应用情境,非常有助于把这项技术带到用户面前。”

过去的数十年,人们在语音翻译领域已经有过诸多尝试,其中一些就发生在微软研究院内部。但是这些尝试要同时满足能够应用在现实生活中所使用的工具中,并适应许多不同用户的嗓音和说话习惯以及不同语言之间的细微差别,还要服务于像Skype这样规模庞大的用户群,则往往都被视为是不可能完成的任务。

今年晚些时候,Skype Translator将作为限量测试版(limited beta)首次出现在Windows 8中。这就需要微软在翻译、语音识别和语言处理等方面实现一系列重大的研究进展。当然, 这离不开来自全球各地的微软工程师和研究团队的共同努力。

微软研究院机器翻译团队是一支有着辉煌战绩的队伍。它曾负责研发前沿的翻译技术和云服务技术,后被广泛应用于微软一系列的产品中。这次,它践行了“一个微软”的策略来应对这一挑战——合微软语音服务领域的研究人员和工程师之力。此外,为了开发一种全新的自然用户体验,该团队还与Skype的设计师和工程师建立了深入的合作伙伴关系,尤其是以Jonas Lindblom为首的原型设计团队。

Menezes说:“这个项目的有趣之处在于我们首次把这两个相当复杂的技术组合在一起,提供这种端到端的用户体验。”

训练之上,数据制胜

微软研究院专注于机器翻译课题已经长达10年之久。最初的结果来自于由微软产品所支持的知识库的翻译。后来该技术作为“必应翻译”的底层引擎,开放给社会公众使用,并由此带动了这项工具的发展和普及。如今,必应翻译的用户已经数以千万计,并获得了世界各地许多组织的青睐。

一路上,Menezes和微软同仁们克服了系统和用户界面设计方面的许多严峻挑战,其中包括降低时延和开发视觉反馈,这使得翻译系统能够利用用户反馈来不断自我完善。

Arul Menezes

“在这一领域,数据有多好,技术就有多好,”Menezes说。“我们工作的一大重点在于扩充对这些系统进行机器学习训练所用的数据总量和种类。”

微软亚洲研究院就曾敏锐地感知到这些数据的重要性。语音组的首席研究员Frank Seide一直在使用逐步增加会话数据的时间长度的方法,并用它们来对基于模型的训练方法进行微调。开始时,只有一组总计24个小时的数据,而现在其数量已经显著增加。由Frank研发的先进的语音对话模型,在这次Code大会上在所演示的无缝交流中发挥了至关重要的作用。

对话训练的数据很难获得,团队不得不开发新的技术来收集对话语音数据。Frank说,其中一个例子是对社交媒体上的发帖进行分析。

“这让我们接触到另一种语言风格,”他说:“人们在社交媒体上的写作方式不同于他们的说话方式,但其中的俚语和词句仍然会有一些重叠,可以对系统有所帮助,并让它跟得上时代步调。”

但尽管这样,还存在一个“不流利”的问题:也就是人们写作和说话方式之间的差异。在说话时,人们使用大量的停顿和无意义词句,用于填充思考过程中的空白。

“人们不只会重复一个字,”Menezes说。“有时候,你的一句话只有三个字,还会回头去重复一遍。在某些语言中,这方面的挑战性更强,例如在西班牙语等语言中,用词必须与语法性别保持一致。”

解读这样的交谈需要进行大量的训练。确定一个句子在何处终止也是这样。句子是翻译的基本单位,但如果没有标点符号,就可能很难辨认。事实上,如果缺乏标点符号,阅读一段对话的转录文字也是几乎不可能的事情。翻译器必须学会对语音输入进行分割。

“这就是过去一年间我的团队一直在做的事情:解决人们说话方式和写作方式之间的不匹配,”Menezes说:“如果你的翻译系统只侧重于书面文字,那么它在口语上的表现一定非常差。”

深度神经网络为语音翻译注入新生命

除了机器翻译外,语音翻译工作还要依靠其他几个方面多年来的研究和工程开发的进展,而其中最值得注意的则是语音识别。在这一领域,微软亚洲研究院和雷德蒙研究院的语音研究人员都发挥了关键作用。

通向Skype Translator的道路在2010年秋天开启了高速模式。Frank和同事Kit Thambiratnam开发了一个名为 “The Translating! Telephone”的系统,用于电话交谈中的语音到文本及语音到语音翻译。

Kit Thambiratnam () and Frank Seide 在展示 The Translating! Telephone

另一个重要突破来自俞栋和邓力与硕士实习生George Dahl的合作,他们使用句音和发音小片段作为神经网络的训练标的。此举让系统性能大大提升,语音识别的准确性提高了16%。

“我感到非常兴奋,”雷德蒙研究院的研究员俞栋微笑着说:“主要是因为我专注于这个领域已经有很长一段时间了,而且我知道在我的职业生涯中从来没有出现过如此大幅度的提升。”

新的性能在Frank脑海中留下了深刻的印象,并被它深深吸引,于是乎一段密切的合作由此开始。经过一番时日的努力,准确度提高了24%。进一步的调整后,最终实现了42%的改善幅度。可以说,大器已成。

这时候,Frank不得不重新设计自己的基础架构,以应对更大规模的任务。他与微软亚洲研究院的李钢合作,致力于核心语音识别技术的开发,特别是构建新的模型。每个模型都可能需要数周时间。

要实现Skype Translator,这里也不得不提到微软雷德蒙研究院的研究员邓力。2009年,他邀请多伦多大学教授Geoff Hinton访问雷德蒙,共同研究新的神经网络学习方法,而研究的基础,则是Hinton和他的合作者在2006年时发布的几篇有深远意义的论文,为神经网络在信号建模和分类的应用注入了新的生命。

究竟什么发生了改变?

原来一方面,大数据的扩散给神经网络注入了新的生命。某些蛰伏多年的机器学习方法也得到了新鲜血液。

另一方面,邓力表示,“深层”也发挥了作用。在上世纪90年代,人们认为神经网络方法用于语音识别的关键,是因为它拥有巨大的隐层参数,它可以用于拟合分类结果,并改善语音识别的性能。

邓力(左)和 Hinton

“早期人们并没有意识到使用多个隐层层是非常重要的,”邓力说:“但其实大脑中许多部位的结构就是这个样子的。”

2012年1月,微软的研究人员共同撰写了一篇论文,题为《Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition》,发表在IEEE音频、语音和语言处理(IEEE Transactions on Audio, Speech, and Language Processing)期刊上。这是 “深层神经网络”术语首次应用于此类工作。

如今,“深层神经网络(DNN)”这个新生术语已经在语音识别界普遍使用。四年前,IEEE声学、语音和信号处理(IEEE International Conference on Acoustics, Speech, and Signal Processing)国际会议仅有三篇关于深层神经网络的论文发表,而今年的会议发表了近百篇相关论文。

俞栋

那篇由俞栋、邓力等人合作的论文被引用得如此频繁,以至于最近荣获了2013 IEEE信号处理学会(IEEE Signal Processing Society 最佳论文奖,这项经得起时间检验的奖项用于表彰过去五年间发表的顶级论文。

使用音符组合(senone)作为语音解码主要单位的方法还带来了其他的好处。包括微软在内的大企业都为语音处理能力的建设投入了巨资,这些架构都是在深层神经网络出现之前建成的。以前的模型都是以高斯混合模型为基础,而音符组合则是其输出形式。

DNN方法也可以将音符组合作为输出,从而实现了对现有计算架构的有效再利用。

这些突破已经带来了回报——微软的必应平台产品组正在利用它们为Cortana等语音驱动的产品提供业界一流的语音识别体验;Skype、微软研究院和必应平台组之间的这种紧密伙伴关系已经让识别的精度接近人类的能力,并且成为向全球范围内的Skype用户提供翻译服务的关键所在。

梦想照进现实的注脚

对于在“一个微软”理念下开发的Skype Translator而言,一次重要的试验发生在2012年10月25日,地点在中国的天津。当时微软亚洲研究院正在举办年度学术研讨会——“21世纪的计算大会“。在时任微软研究院全球负责人的Rick Rashid发表的主题演讲中,首次公开演示了微软实时语音翻译技术。

点击观看视频

“我要确保每个句子后面都有停顿,”Rashid回忆说:“好让观众有时间清楚地聆听中文普通话版的我说了些什么。这也意味着观众有足够的时间做出反应。我记得听到来自前排观众的大声赞叹,紧接着便是全场观众的热烈掌声和好评,这场面相当令人感动。”

对语音识别和机器翻译的发展而言,这都是一个关键的时刻。

“我认为,这次演示很明确地预示了深层神经网络语音识别和实时语音翻译的到来,”Rashid说。“它为未来的努力设置了标杆,并让我们窥见到未来:语言未必是一种障碍。

“我从小就是科幻小说迷。看到一些曾经纯属虚构的技术变成现实,着实令人振奋!”

现在,Wendit和他的同事们正将这一技术推广到大众中去。他率先将“一个微软”的理念运用到Skype Translator的开发中,其中包括与Skype的同事Lindblom, Daniel Nitsche, and Fredrik Furesjö的密切合作。在Skype团队的Steve Pearce以及雷德蒙研究员Shamsi Iqbal的帮助下,开发团队得以对用于用户体验的交互模型进行了微调。

“团队克服了设计、研究和工程方面的很多挑战,才走到了今天这一步。最令我感兴趣的是,引入了更自然的沟通方法之后,我们与技术之间的动态关系发生了怎样的改变,” Vikram Dendi说道。他在成为Peter Lee的技术和战略顾问之前,曾是机器翻译团队的一员。“作为一名用户,在使用传统的文本翻译时,如果没得到正确的结果,我很容易将责任归咎于技术,然后干脆放弃。

“令我着迷的是,双方本着如此强烈的愿望尝试相互沟通,并借助技术,让彼此增进对语音翻译的理解。即使是在测试阶段,这项技术也已经变得既有用又好用了。”

注:部分图片来源于网络