分享到微博 分享到人人 分享到LinkedIn 分享到Email
Microsoft Translator 语音翻译的工作方式

Microsoft Translator语音翻译功能最初仅通过微软的Skype Translator实时语音翻译功能和 Microsoft Translator应用程序提供服务。现在该功能通过最新版的API向所有开发人员和第三方应用开放。

虽然语音翻译看上去是个简单的过程,但这比仅仅是将现有“传统”人机语音识别引擎插入到现有文本翻译引擎的过程复杂得多。

要正确地将“源”语音从一种语言译成另一种"目标"语言,系统需要完成四个步骤。

  1. 自动语音识别,将音频转换为文本
  2. TrueText: 一种使文本标准化, 更适合翻译的技术
  3. 通过上述的文本翻译引擎进行翻译,但是利用专为现实生活口语会话开发的翻译模型
  4. 文本到语音转换,必要时产生译文的音频。

动语音识别 (ASR)

ASR 基于对数千小时音频语言的分析,借助深度神经网络 (DNN) 。此模型基于人与人之间的交互,而非人对机指令训练,可产生为正常对话优化的语音识别效果。为达此目的,需要大量的数据,以及较传统人对机 ASR 更大的深层神经网络。

TrueText

正如人与人之间的交谈一样,人类的口头表达并完美,常常不如自己认为的那样清晰和简洁。TrueText 技术通过删除语音中不流利 (赘词,如"嗯"、"啊"、"和"、"比如")、口吃和重复的部分,使文本更贴近地反映用户意图,还通过添加断句、修改标点符号和大小写,使文本更易读和更容易翻译。下图通过真实的示例描述了 TrueText 执行的各种转换,以使表面文字标准化。

经过 TrueText 技术的处理,标准化的文本可以被译成 Microsoft Translator 支持的50多种语言的任意一种。

除了这个标准的翻译,我们还开发了新的语音翻译引擎。用更多的口语文本语料库扩展目前以书面文本训练为主的翻译模型,从而为口语会话类翻译构建更好的模型。这些模型也可通过"语音"标准类传统文本翻译 API 提供服务。

文本到语音转换

如果目标语言是Microsoft Translator支持的18种文本到语音转换语言之一,而且需要音频输出,则可使用语音合成将文本转换成语音输出。

> 返回