分享到微博 分享到人人 分享到LinkedIn 分享到Email
技术怎样弥合语言鸿沟——语音翻译有望帮助连接我们的世界
微软亚洲研究院
2014年3月31日

  本文译自:How technology can bridge language gaps – Speech-to-speech translation promises to help connect our world

在经典电视节目《星际迷航》的未来小工具中,最有用的恐怕要数宇宙翻译器了。这种可以手持的小型设备用于帮助促进不同星系文明之间的相互理解。实际上,我们大可不必走到太阳系之外去寻找这种装置的用武之地。试想一下,如果你能够用汉语说话,同时又能以符合语法和语义规范的方式把你的想法用英语或西班牙语表达出来。然后再想象一下,那些经过翻译的思想还是用你本人的音色说出来的!

这又是一次科幻畅想吗?也许不是。由于微软研究院的不懈努力,上面谈到的语音翻译正在越来越接近现实。在不太遥远的将来,某一天你或许能够在巴黎的一家餐厅询问晚餐的菜式选择,在莫斯科向出租车司机给出详细的路线指示,或在东京与潜在合作伙伴洽谈一笔生意——这一切都将如此流利、用自己的音色,而且还无须掌握任何一个法语、俄语或日语单词。你的平板电脑或智能手机将为你承担繁重的工作:理解你的中文谈话,把它翻译成听众能懂的语言,并用你自己的音色说出来——而且发音、声调和语调完全如母语一般地道。

通过三项关键技术(语音识别、文本翻译和语音合成)的珠联璧合,这一切都将成为可能;而在它们背后,机器学习,特别是基于计算机“深层神经网络(Deep Neural Network, DNN)”研究的突破可谓是功不可没。

1996年,远在微软破解宇宙翻译器难题之前,公司的首席研究官、星际迷里克·雷斯特就曾欣喜若狂地与《星际迷航》中斯科蒂的扮演者、已故大明星詹姆斯·杜汉合过一张影。

从语音识别开始

推动语音识别领域不断向前的动力几乎都源于计算设备对人类谈话内容的理解能力。任何30岁以上的人都会记得自己因语音识别功能不完善而感到沮丧的日子。为了激活一下你的记忆,请看下面这段真人与电脑助手“安妮”之间的真实对话日志:

如此这般。早在20世纪80年代,那时的计算机系统在试图理解最简单的口语请求时都显得迷迷糊糊。只有人机之间的互动局限在几个来回重复的命令时,这样的系统(在某种程度上)才能够有效工作,而且这些命令往往是在机器提示下给出的,例如“余额”、“支付日期”或“最近交易”等。相反,当心怀不满的客户给出类似“我想对一项费用表示异议”的回答,系统就会点燃语言学障碍的导火索。对于超出既定请求列表以外的语音识别,其错误率高到了令人无法接受的程度。

到了20世纪90年代中期,情况已经明显改善。例如,能说多种语言的计算机科学家Frank Seide(现在是微软亚洲研究院的首席研究员)参加了一个自动电话系统项目,旨在为说德语的呼叫方提供列车时间表信息。这个系统和其他类似系统一样,取得了令人满意的效果,但仅能用于范围十分有限的语音请求。

今天,情况变得更好了。你可以对着智能手机口述一条短信,并相信软件会以可接受的准确度把它转换成文本。我们已经见识过一些智能手机应用程序,例如苹果的Siri和Windows Phone的“Ask Ziggy”,它们能够理解我们的语音要求,而且准确度往往很惊人。当然,语音识别仍然不够完美,但话又说回来,我们自己也经常误解别人对我们说的话,况且我们的大脑要比我们智能手机里的软件复杂得多得多。

语音识别的改进给我们的智能手机带来了声控助理,例如Windows Phone系统中的“Ask Ziggy”,也让我们的汽车懂得了语音命令,例如福特SYNC。

语音识别的准确性达到今天的水平,要归功于机器学习的一大突破。2006年之前,开发人员往往要借助复杂的统计结构来训练语音识别系统,而它的基础则是被称为高斯混合模型(Gaussian mixture models, GMMs)的技术。从理论上讲,这种做法应该能够实现为多数人所接受的自动语音识别。但在实践中,其效果一直令人沮丧。

2006年,多伦多大学教授Geoffrey Hinton的研究工作让所有这一切有了转机。他和同事们选择了另一种机器学习路径,应用了深层神经网络(Deep Neural Networks,DNNs),其中的计算机化“大脑”包含了许多相互关联的隐藏层。

微软雷德蒙研究院首席研究员邓力在加拿大滑铁卢大学授课期间结识了Hinton。邓力加入微软后,他与Hinton之间的交往仍在继续。2009年底,邓力邀请Hinton前来微软研究院与他共事,致力于使用DNNs进行语音识别的研究。在协作过程中,他们发现,与高斯混合模型相比,DNN语音识别模型虽然不能显著降低错误率,但它们产生了明显不同的错误模式,对输出可靠性之间的干涉更少。这一发现鼓舞了邓力和俞栋(后者是微软雷德蒙研究院的高级研究员),他们继续研究DNNs在语音识别领域的应用,而且2010年夏天,俞栋、邓力和Hinton的研究生George Dahl共同将DNN模型扩展到更大的词汇量,以解决现实世界的情景语音搜索。那年秋天,Frank Seide和他在微软亚洲研究院的同事们开始和俞栋一道开发高效、大规模、基于DNN的语音识别原始模型。

大规模、基于DNN的识别首次取得成功的报道出现在2010年,当时俞栋、邓力和Dahl发表了一篇围绕上下文相关的DNNs研究的论文,其中涉及到有数百个输出单元的网络;到了2011年,Seide、俞栋和微软亚洲研究院的同事李刚又发表了在数量庞大的输出单元和经过改进的训练模型方面的进展。这些进步对语音识别的影响是巨大的,与以前的GMMs相比,它的单词错误率降低了三分之一。到2013年,基于DNN的模型的错误率已经削减了一半(与GMMs相比)。

基于DNN的语音识别性能达到了新的水平,再加上必应翻译器等语言翻译系统的进步,激发了微软研究院科学家们更上一层楼,打造语音翻译系统。对于DNNs,邓力表示,它粗浅地模仿我们的大脑的构造方式,各层之间存在大量的连接。正如他2012年发表在《IEEE信号处理》杂志上的一篇论文中所述:

我们的想法是,每次了解特征探测器里的一个层,并用这个层内的特征检测器状态作为训练下一层所需的数据。在这种生成性的“预训练”之后,特征探测器内的多个层次就可以作为一个更好的起点,用于判别性的“微调”阶段,在此期间,通过DNN的反向传播对预训练中所发现的权重进行微调。

虽然DNNs善于处理的某些数据人类也能很好地处理,尤其是语音和视觉,但这并不意味着DNNs能够以与人类相同的方式进行学习。

邓力构想了跨国集会的场景,大家说着各自的母语,而其他人都能够理解。

虽然早期翻译软件的前景非常引人注目,但结果几乎总是无法给人留下深刻印象。

Seide指出,“DNNs只接受一次训练,然后就保持不变了;而人类在其整个生命中都会不断地学习。”但他和邓力又迅速补充说,创建DNNs的能力是计算机的速度、内​​存和处理能力飞速进步的结果。

尽管转向DNNs方式之后,语音识别的单词错误率出现了显著下降,但这种方法并非完美。错误依然会有。不仅错误的数量下降,错误的性质也发生了改变——那些导致话语基本没有意义的错误变得少了很多。相比此前方法的不连贯性,新方法的结果堪称惊人地准确。

Hinton的原始论文主要是理论推导,重点在于方法。正是由于他与微软研究院展开合作,才让这项工作有了实用化的前景,进而让这项研究达到了邓力所说的“产业化规模”。这种朝着更加实际应用的转移已经扩展到了全行业,微软的竞争对手苹果、谷歌和IBM都加入了研究竞赛,力争改进语音识别,并实现“产品化”。

引入机器翻译

正如先前在自动语音识别领域的诸多尝试为后人留下了很大的改进空间,在自动翻译领域既往的努力也是如此。虽然早期翻译软件的前景非常引人注目,但结果几乎总是无法给人留下深刻印象。

此处显示的机器翻译结果是基于当前软件,显而易见,其中的机器翻译算法仍然有巨大的改进余地。如今,研究人员正在将DNNs应用于翻译问题,希望能看到与语音识别相类似的改进。其结果很难说,但如果运气好的话,它很快就不会再让我们听到“每一个玫瑰”这样的笑话。

事实上,机器翻译已经演进到了一定的阶段,并且成为了一种有效的移动应用——当然,是在一些特定的场合。比如,你在酒吧喝了太多的啤酒,想要向你的智能手机询问怎么去洗手间;但如果你指望它帮你用西班牙语进行汽车租赁协议谈判,那完全又是另一回事了——更不用说指望它帮你进行任何长时间或有深度的交谈了。这正是微软的语音翻译项目所希望达到的——它采用了由微软亚洲研究院张冬冬倾力打造的最先进的翻译引擎。

添加你自己的音色

现在让我们来看看,我们在探索宇宙翻译器的征途上走到了哪里。我们手头已经掌握了语音识别部分——这要感谢运用深层神经网络所带来的进步。我们正在努力实现可被人们广泛接受的机器翻译。那么,我们能否让它用你的音色说话呢?

是的,我们可以——就像Noelle SophyHenrique Malvar在微软研究院雷德蒙总部的一个小型会议室内所演示的那样。Sophy是一名高级程序经理,而Malvar则是一名微软杰出工程师兼微软研究院首席科学家。他们描述了实现有效的语音翻译的过程中所取得的成果——特别是微软亚洲研究院首席研究员宋謌平的研究工作。Malvar强调,是宋謌平的团队让语音翻译有了自己的“音色”。

我们的日常聊天充满了非正式性和语法错误,要设计一种实时、自动的翻译系统,并且能够应对上述特点,这确实是一个棘手的命题。

俗话说“眼见为实”,当然,在我们所说的情况下,是“耳听为实”:所以,Sophy打开了她的笔记本电脑,并连上了一个大号麦克风——也就是录音棚里经常用的那种。软件加载需要等待几秒钟,之后她身体前倾,并对着麦克风刻意清楚地说出:“这是一个微软语音翻译系统的演示。”她的话音未落,笔记本屏幕上就出现她说的话。在几秒钟内,中文也出现在了屏幕上,然后一个声音读出了她讲话的翻译版。声音听起来出奇地自然,与标准普通话的语音、语调特征毫无二致。

但有一个问题,它听起来并不像Sophy的声音。它确实不是——实际上,它是微软首席研究官兼微软研究院负责人里克·雷斯特的声音。软件之所以使用雷斯特的男中音,而不用Sophy的女高音,原因很简单:那套软件已经根据雷斯特的声音样本进行了训练,所制作的演示也已经在YouTube上引起了轰动。如果那部机器根据Sophy的英语演讲样本进行训练,上面提到的口语普通话就会是她的声音了。

用于口语翻译字句的语音识别突破

该软件借助宋謌平开发的方法,使用雷斯特的英语讲话为样本,把他的讲话拆分成多个声学元素,然后把它们进行重组,合成出普​​通话口语的声音。接下来,该软件会表演另一个漂亮的数字魔术——这同样也要感谢宋謌平和他的团队——把雷斯特的声音组装成升降调自然的普通话。这其中自然的抑扬顿挫是基于对一个母语为普通话的人的数据收集及进行字句索引的结果。宋謌平的语音翻译软件将雷斯特的声音映射到普通话口语的自然形态,“神准”地模拟出雷斯特说中文的情形。发声准确和自然到什么程度?研究人员请母语为普通话的人对结果进行了测试,他们确认,翻译和音色本身都自然到了令人惊讶的程度。数百人在YouTube雷斯特演示视频上留下的评论也进一步证明了其翻译的优良品质。

幕后英雄们

雷斯特的演示被人从英语翻译到汉语普通话,这绝非巧合。语音翻译项目正是从北京的研究工作开始的,而微软亚洲研究院的计算机科学家们,特别是Frank Seide和宋謌平,成为这个项目前行的原动力。Seide的母语为德语,但他也能说流利的英语;宋謌平则可以说流利的普通话和英语,他们为自己的“孩子”投注了满腔热情。

Seide兴奋地谈到语音翻译的潜在市场,将它描述成为实现“人与人之间无语言障碍口头交流梦想”的神器。他构想了跨国集会的场景,大家说着各自的母语,而其他人都能够理解。宋謌平则提醒人们,语音翻译目前只是一个科研原型,而不是一个完全现实的产品。

这项研究工作是怎么开始的呢?它的动力源自在一个跨文化、多语言环境中工作的挑战。正如Seide介绍的那样,该项目始于一个用于转录并翻译北京和雷德蒙的微软研究人员之间电话会议的系统。Seide的同事Kit Thambiratnam注意到,中国参与者在试图旁听雷德蒙工程师之间的内部交谈时往往难以理解,并意识到实时口语翻译应用的实用价值。他们开发了“Translating!Telephone”(翻译!电话),它就是语音翻译原型机的前身。 

Frank Seide和宋謌平告诉我们,雷斯特的演示向我们展示了他说中文时的情形。宋謌平解释道:“里克不会说中文,因此没有人能真正知道如果他讲普通话会是什么声音。”宋謌平介绍了训练样本是如何使用雷斯特说的2,000个英语句子的。由于汉语普通话中某些发音在英语中是没有的,所以必须把雷斯特的讲话“切碎”成宋謌平所说的“瓦片”——甚至比音素还要小的声学片段,它们是基本的语音单位,可以用来组合成任何一种语言的单词。然后,将这些瓦片以汉语发声者为参照进行排列,营造雷斯特说汉语普通话的错觉。

毋庸置疑,组建一个工作原型所需要的远远不止一个人所说的2000个句子。毕竟,这是个机器学习的过程,而机器学习需要大量的数据才能产生效用。为了训练英语系统,北京研究小组获得了2000小时录音的使用授权,所有内容都是他们付费聘请人打电话进来录制的,并精心转换成文字,再与汉语普通话翻译进行配对。但即使有了这样大量的数据,研究人员仍然面临对话交谈中固有的问题——它们明显不同于书面语。交谈中充满了停顿、“呃呃啊啊”和句子片段。

这确实是个棘手的命题:要设计一种实时的自动化翻译系统,还要能够应对我们日常聊天中无处不在的非正式表达法和语法失误。因此,即使备受推崇的那段演示中,雷斯特的说话方式也属于Seide所谓的“讲座风格”,这是一种正式的表达方式,要确保所说的话符合语法规则。你或许注意到,雷斯特每次只讲了一句话,然后稍作停顿,这个小技巧让软件有时间来处理他的讲话,并提供合理的翻译。当然,这只不过是一次演示,但它彰显了这项技术的潜力。

这种潜力何时才能释放出来,现在还很难说。正如Seide和宋謌平所强调的那样,这项工作是一条进化的路径,他们在实现语音翻译的道路上已经走了很久很久。尽管他们强调自己的研究工作是纯理论的,旨在证明语音翻译系统的广阔前景,但Seide和宋謌平都意识到了其中巨大的产品化潜力。宋謌平设想了将这种技术嵌入到国际旅行者随身设备上的价值。他说:“它可以应用于各种日常生活场景中,而且在紧急情况下更能显现它的价值。”Seide补充说,语音翻译在国际会议上具有极高的实用价值,特别是规模较小的专业聚会,它们没有足够的预算去聘请翻译人员。他还提出了一个更加个性化的潜在用途:它可以促进自己与他的中国岳父母沟通,因为后者既不会说英语,也不会说德语。

在外国城市获得出行指南,用自己的语言聆听外国演讲,或不用看字幕就能欣赏外国电影:语音翻译蕴含了所有这些可能性,更不用说打破文化和政治障碍——这又把我们的思绪带回到《星际迷航》里的宇宙翻译器了。如果这样的设备可以解决外星球之间的误会,它当然也可以在地球上成就一个美好的世界。

增加更多的语言

语音翻译目前只是一个原型,仅有一个语言对:英语和汉语普通话。我们的目标是增加更多的语言对。显而易见的候选对象是那些被广泛使用并且具有重要商业价值的语种,如西班牙语、德语或日语。但是,这是不是意味着把小语种使用者“打入冷宫”了呢?不一定。多亏有了Microsoft Translator Hub,任何语言的使用者都可以建立翻译模型,而且这些模型总有一天能够纳入语音翻译应用之中。