分享到微博 分享到人人 分享到LinkedIn 分享到Email
通往Skype Translator的技术之路

2015年

12月:Skype Translator已经支持英语、西班牙语、葡萄牙语、法语、德语、意大利语以及中文(普通话)的实时语音翻译。iOS和Android版Microsoft Translator应用增加对话翻译功能。

10月:Skype Translator功能开始整合至Skype桌面版应用。

5月:微软全面开放Skype Translator预览版试用。

2014年

12月15日:微软正式发布Skype Translator预览版,首批支持的是英语和西班牙之间的实时语音翻译。阅读Skype的博文了解更多

11月12日:来自美国华盛顿州和墨西哥市两所小学的孩子们用Skype Translator进行了首次通话。

11月3日:微软正式面向Windows 8.1用户宣布了Skype Translator预览版计划

7月,微软在全球合作伙伴大会上展示了近乎实时的英语到德语的语音翻译。

 

5月,微软首次公布并公开演示由微软研究院研究人员和Skype工程师共同开发的Skype Translator:

 

微软语音产品组迅速对公司在语音研究中取得的突破实施产品化,希望为Cortana和微软产品线中其他以语音驱动的产品提供业界最佳的语音识别能力,其识别的精度几乎与人类接近。

Skype、微软研究院和必应平台组之间的这种紧密伙伴关系是令此项技术进入Skype全球用户视野的关键所在。

 

 

2013年

Skype庆祝成立10周年,其语音和视频通话时间累计超过1.4万亿分钟。

微软的深层神经网络(DNN)研究提升了Windows Phone中的必应语音搜索质量。此外,微软在机器翻译研究的投入,再加上必应信息平台和覆盖整个网络的架构,为多种用户体验实现了翻译功能,其中包括必应、Office、SharePoint和Yammer。

 

2012年

Microsoft Translator Hub发布,并运用了自助服务模式,旨在构建适用于任何两种语言之间的高度定制化自动翻译服务。

这种基于Azure的服务能够帮助语言研究界、服务提供商和企业打造自动翻译系统,允许全球任何两种语言的使用者之间相互分享和获取知识。

该系统能够将内容翻译成很多主流翻译引擎都尚未支持的语言,这也将有助于那些使用不太广泛的语言保持活力,并且代代传承下去。

 

微软研究院创始人Rick Rashid只用了八句话就让中国天津一座礼堂里的2000多名师生群情激越。几十年的DNN和语音研究终于达到高潮:Rashid用英语演讲时,中国观众却借助神奇的现场翻译工具,听到了用Rashid的原音讲述的汉语普通话。语音识别系统在演示排练中实现了小于7%的误差率,几乎与真人做字对字笔录时的水平相当。

 

2011年

由微软的研究人员撰写的一篇关于语音转录的开创性论文在Interspeech 2011大会上发表。微软研究人员证明,与以前的方法相比,他们的方法可以将性能提升超过30%。也就是说,不是每4到5个词中有一个词不正确,错误率已经降低至每7到8个词中才会有一个不正确。虽然还不够完善,但这已经是过去十年来最显著的一次准确度提升。

2010年

微软亚洲研究院的研究人员开始关注对口语进行翻译,并提出用说话人自己的声音念出来的研究构想。

正因为如此,The Translating! Telephone在2010年微软技术节期间首次公开亮相,实现了英语和德语之间的实时翻译,而且使用说话者自己的声音念出译文。

围绕语音搜索任务展开大型产业技术研发,并将DNNs的优势与生产具有高精度和高效率的语音识别工具的行业需求结合起来,微软研究人员率先进行了整个行业规模的深度学习。他们发表的开创性期刊论文后来被IEEE授予2013年最佳论文奖。

2009年

2009年以前,几乎所有的语音识别系统都是基于高斯混合模型(GMMs),但语音识别的结果却令人失望。从2009年下半年开始,情况开始发生变化。DNN模型连同微软研究人员邓力和其他同事较早前开发的深层模型呈现出有趣而独特的错误识别模式。这一发现和随后的合作激励他们投入大量精力从事DNNs的研发。

2007年

 

微软机器翻译服务发布,实现了对网页内容的大规模翻译。

2006年

多伦多大学的Jeff Hinton开始将DNNs用于机器学习,并发表了两篇开创性的论文:《用于深信度网的快速学习算法(Fast Learning Algorithm for Deep Belief Nets)》,以及《借助神经网络减少数据维数(Reducing the Dimensionality of Data with Neural Networks)》。

2005年

微软研究人员Chris Quirk和Arul Menezes以及加拿大阿尔伯塔大学的研究人员Colin Cherry联合开发了句法统计型机器翻译方法,并为微软未来的机器翻译系统提供了灵感。

延伸阅读:Dependency Treelet Translation: Syntactically Informed Phrasal SMT

2003年

Skype发布。用户第一次可以在互联网上进行视频通话而无需支付费用。此举实现了前所未有的人与人之间的沟通。


2002年

Zens、Och和Ney的论文《Phrase-Based Statistical Machine Translation》简化并改进了早期语音翻译方法。

2001年

世贸中心遭受攻击后,DARPA开始大规模资助语音识别、机器翻译和语言处理领域的研究。全球自主语言开发(GALE)计划综合使用了语音识别、机器翻译和信息提取技术。DARPA TRANSTAC计划演示了手持设备上的语音到语音翻译,但仅限于短语。

2000年

在《Speech Parameter Generation Algorithms for HMM-Based Speech Synthesis》一文中,Tokuda等导出了基于HMM语音合成的语音参数生成算法。这个方法后来被微软亚洲研究院的宋謌平加以完善。

1997年

Dragon Systems公司和IBM公司发布了第一款用于大词汇量连续语音识别的商业软件,可在预装微软Windows系统的PC上运行。大众由此得以使用语音识别功能。

1996年

在《Unit Selection in a Concatenative Speech Synthesis System Using a Large Speech Database》一文中,Hunt和Black提出了衔接型语音合成,用于创建效果逼真的音频。

20世纪90年代

在由政府资助的DNNs实验中,诞生了关于深度学习核心方法的早期文献。特别的是美国国防部高级研究计划局(DARPA)资助了许多有关语音识别的大型研究项目。SRI国际成功利用DNNs实现了说话者识别。

1990年

Brown等人发表了一篇开创性论文《A Statistical Approach to Machine Translation》,提出使用基于对大量数据加以分析的统计方式来构建机器翻译系统,而不是早期基于句法分析和处理的方式。现代机器翻译的纪元开始了。

20世纪80年代

神经网络的研究成为热门。反向传播算法提出并被广泛接受。

1975年

Lalit Bahl, Frederick Jelinek和Jim Baker 提出了一种用于语音识别的噪声信道模型,后来被称为隐性马尔可夫模型(Hidden Markov Models),也就是目前语音识别系统的基础。IBM公司和卡耐基梅隆大学开始了自动语音识别的研究工作。

1966年

美国国防部、美国国家科学基金会和中央情报局组成了自动语言处理顾问机构(ALPAC),对机器翻译进行研究。但ALPAC撰写报告称,已经有足够数量的翻译从业者足以满足当时的需要,并质疑建立高品质自动化系统的可能,此后用于研发机器翻译系统的资金被削减。该报告指出:“早期对简单或选定文本的机器翻译看似鼓舞人心,但对一般科学文献的‘机器翻译’却无一例外地令人失望。”机器翻译的研究努力相对沉寂。

1954年

IBM公司和乔治敦大学展示一个基于6项语法规则和250字词汇表的计算机化俄/英翻译系统。它能够将“Mi pyeryedayem mislyi posryedstvom ryechyi”等句子翻译成“我们通过语音传递思想。”政府开始拨款支持机器翻译研究。

1949年

机器翻译先驱Warren Weaver发表了自己的一份研究备忘录《翻译》,对使用计算机化方式执行翻译作出了说明。

1941-45年

对战时加密代码的成功破解令人们相信,借助类似的方法,有可能成功地将一种人类语言翻译成另一种语言。