分享到微博 分享到人人 分享到LinkedIn 分享到Email
挑战中英实时语音翻译
Skype Translator 中文预览版登陆中国
微软亚洲研究院
2015年4月9日

今天,我们正式宣布在中国市场推出Skype Translator实时语音翻译技术的中文预览版。自此,英文和中文普通话之间的实时语音对话将成为现实。Skype Translator不仅凝聚了微软在语音识别、自动翻译和机器学习等科技领域几十年的研究成果,更深刻地体现了微软“用户体验至上”的理念。自2014年12月Skype Translator 推出英文和西班牙文之间的实时语音翻译之后,此次在中国市场的发布是Skype Translator旅程中又一个令人无比兴奋的里程碑,Windows 8.1用户在只需从Windows应用商店下载Skype Translator 预览版,就可以立即试用了。

众所周知,中文的美丽无与伦比,同时它也是一门极具挑战性的语言,甚至对于Skype Translator来说也是如此。中文有大约一万个常用汉字以及多种多样的语音、语调,这对于母语为英语的学习者来说是最大的困难之一,有类似困难的语言还有阿拉伯语、日语和韩语。

视频: Skype Translator 消除语言障碍,拉近人与人的距离

微软作为语音翻译领域的先驱者,在2012年首次演示了英文和中文普通话之间的实时语音翻译技术原型。微软在北京的研究团队与位于美国雷蒙德的同事们密切合作,经过多年的辛勤研究和专注投入,完成了普通话的语言模型,使Skype Translator的中文语音翻译在今天变为现实。

不仅如此,近段时间,得益于深层神经网络与微软成熟的统计机器翻译技术的结合,语音识别能力被进一步提高,随之得到的更准确的翻译结果让一对一的语音交谈成为现实。Skype一直致力于帮助人们进行无障碍的沟通,而Skype Translator就是达到这一目标的最新科技产物。

Skype Translator预览版适用于Windows 8.1或Windows 10技术预览版的客户端或平板电脑客户端。除了英文和中文普通话的语音翻译之外,还支持四十多种语言的即时文本翻译。预览阶段对Skype Translator的开发与优化极其重要,因为用户在使用产品的同时所提供的有价值的反馈,可帮助我们进行产品优化,不断帮助该技术进行智能化的提升, 支持更多种语言的应用。

视频:Skype Translator与微软中国研发团队

Skype Translator如何运作

机器学习是指软件学习训练数据的能力。Skype Translator构建于强大的机器学习平台之上。通过在预览版阶段获取的训练数据,加之其中的细微差别,软件就能够针对真实使用者的不同话题、口音与语言转换进行学习,实现更好的识别和翻译。

Skype Translator的机器学习协议训练并优化语音识别和机器翻译任务,就像黏住这些元素的胶水一样,该协议促进对被识别的文本进行更好的翻译。这个过程包括去除造成不流利的字词(例如“啊”“嗯”以及重复措辞)、将文本分解成句子、添加标点符号和大小写识别。

语音识别和机器翻译的训练数据来源多种多样,包括翻译的网页、配有字幕的视频,以及预先翻译且转录成文字的一对一谈话。Skype Translator通过记录这些对话来分析对话文本并训练系统更好地“学习”各种语言。已经有很多人与我们分享了他们过去的对话记录,我们对其进行了分析并为统计模型创造训练数据,该统计模型教会语音识别和机器翻译引擎如何将收集到的语音转换为文本信息,然后将文本信息转换为另一种语言。使用Skype Translator的用户都会在对话开始前得到清晰的系统提示,即对话将被录制并用于提高微软翻译和语音识别服务的质量。

在准备好的数据被录入机器学习系统后,机器学习软件会在这些对话和环境涉及到的单词中搭建一个统计模型。当用户说话时,软件会在该统计模型中寻找相似的内容,之后应用到预先“学到”的转化程序中,使得音频转换为文本再从文本转换成另一种语言。

虽然语音识别一直是近几十年来的重要研究课题,但是该技术的发展普遍被错误率高、麦克风敏感度差异、噪音环境等因素阻碍。微软研究院率先将深层神经网络(DNNs)技术引入语音识别,极大程度地降低了错误率,提高了可靠性,最终使这项语音翻译技术得以更广泛地应用,包括Skype Translator。

Skype Translator的机器翻译部分负责将文本从一种语言翻译成另一种语言。它采用了和必应在线翻译同样的技术:开创性地结合了句法和统计模型,此外更加有针对性地训练对话性语言。这点非常有挑战性,因为现在用来搭建文本翻译系统的典型训练数据都是优化过的清晰、结构严谨的书面语言。我们的系统在包含必应翻译的丰富语言知识的同时,还额外加入了口语对话中出现的单词及短语。

另外,我们创造了一个定制化的机器人程式来协调整个产品体验。如电话中的第三方一样,它负责建立电话连接、发送音频流至语音引擎获取翻译文本,并分别在双方结束说话时翻译其所说的内容。

要创造这样的程式,需要微软研究院和Skype团队集合双方共同的专业知识和工程能力,形成一个复杂的架构,但希望对用户来说获取的则是简单而直接的体验。

视频:Skype Translator幕后特辑

克服挑战

语言像是一只野兽,它时刻变化着,口音和语种层出不穷,书面语言和口语表达又有着非常大的区别。为提供最好的体验,我们不得不克服各种语言挑战。

人类终究不是神,人类会犯错误,会思考,会改变想法。这些思考过程在口语中则表现为不流利的沟通。就像之前提到的,人们在说话时会停顿、重复,并且会有例如“嗯”“啊”之类的语气词。理想情况下,这些细微之处都不应该出现在翻译和翻译文本中,但我们的机器学习模型针对以上问题会相应处理这些停顿。在预览版中您会看到部分语气词停顿被移除,而对于其他没有被移除的部分,我们希望通过用户的反馈进行优化。

人类的独特之处在于,我们沟通时的口语和俚语会相应地体现出我们所在的地区、国家以及文化特征。基于多年在各社交媒体网站的实践,Microsoft Translator已经在俚语翻译方面拥有了不错的表现。这也帮助Skype Translator进一步提高了日常短语和术语的翻译能力。Skype Translator预览版会帮助系统观察和学习更多的日常对话,从而将真实的对话语言更加准确的翻译出来。

另外,在语言翻译的用户体验中也存在一些固有的挑战。比如,Skype Translator的自动翻译器会以类似于第三方通话者的角色出现。我们发现,过去使用过现场翻译服务的用户能很快适应这种沟通方式,而其他用户则需要更多的时间来适应。

虽然此次预览版的发布对于参与开发的团队来说是一个重大的突破,但这只是我们在创造最佳翻译体验之路上迈出的一步。我们将在预览版用户提供的反馈和数据基础上提升技术并优化Skype Translator所创造的独特体验。虽然我们打下了稳固的基础,但对此项技术来说,这只是起步,在某些方面我们的工作才刚刚开始。

相较于2014年12 月推出的英文和西班牙文之间的实时语音对话,本次推出中文预览版的功能更新如下:

  • 语音读取文字信息
    用户可以通过语音收听到对话方发送给自己的即时消息,语音的语言可以自选。
  • 持续性识别
    在对方发送语音信息期间可持续性的进行文字翻译。
  • 自动声量控制
    您的对话方可以在实时语音翻译期间不间断地说话。同时,您可收听到较高音量的语音翻译,对话方本身的语音信息呈现出较低音量,所以您只要将注意力集中在语音翻译上即可,这可以保证翻译信息的收听流畅。
  • 语言翻译静音功能
    您可以任意开启或关闭语音翻译的声音,并直接读取文字翻译。

除了语音翻译现有的四种语言(英语,西班牙语,中文普通话,意大利语), Skype Translator 的即时通讯文本翻译更是在原有40多种语言的基础上加入了塞尔维亚语,波斯尼亚语,克罗地亚语,玛雅语和奥托米语。

今天,我们将见证Skype Translator的另一个新篇章,世界各地的人们与亲朋好友沟通交流的方式变得更加丰富。我们的愿景,是在尽可能多的平台实现尽可能多的语种翻译,为全球3亿多的Skype用户在各个相关平台提供最佳体验。我们将继续研发这项技术,期待与您在未来一同分享更多的里程碑。谢谢您的一路同行!

现在开始,中英实时语音翻译的大幕已经拉开。现在从Windows应用商店下载Skype Translator 预览版,开启您的体验之旅吧。