分享到微博 分享到人人 分享到LinkedIn 分享到Email
微软认知服务:人工智能人人皆享

视频:使用AI帮助组织搜索可视数据

微软实时语音翻译Skype Translator、必应搜索、微软小娜(Cortana)人工智能虚拟助手,这些大家耳熟能详的应用背后潜藏的对话翻译技术、知识编纂和语义理解等技术,无一例外都来自于机器学习的神奇能力。而眼下,这种智能正越来越广泛的进入更多第三方应用,成为人们日常生活中必不可少的环节。

在推进人工智能普及化的进程中,微软认知服务扮演了重要角色。它由25款工具集合而成,让毫无机器学习专业背景的开发人员也可在其应用中轻松添加诸如情绪识别、图像识别和语音识别以及语言理解等智能的功能。

“微软认知服务集微软所有机器学习和人工智能之大成,通过易于使用的API将它们提供给开发人员,免去他们从无到有的自创技术之苦,”微软雷德蒙研究院语音及对话组首席研究员Mike Seltzer说。“在大多数情况下,建立一个先进的机器学习模型需要巨大的时间、数据、计算投入和过硬的专业背景,”他解释道。

以语音识别工具为例,Seltzer和同事们花了十多年时间来研究算法,才使得微软语音识别技术能够在嘈杂环境中依然可以正常使用,并能应对特定用户群体和情形下的术语、方言和口音。

近日,微软发布了这项认知服务工具的公开预览版。第三方应用程序开发人员已可通过自定义语音服务(Custom Speech Service)使用这项灵活的技术。

微软表示,另外两项认知服务工具——“内容审阅”(Content Moderator)和“必应语音API”(Bing Speech API)将在下个月正式上线。“内容审阅”允许用户隔离和审查图片、文字或视频等数据,以筛除不需要的资料(如可能令人不悦的语言或图片等)。“必应语音API”则可将音频转换为文本,理解内容意图,并再将文本转换回语音。

微软认知服务功能十分强大,它可帮助开发人员将智能技术应用于图片和视频等视觉数据的处理上,企业及机构用户则可以用它来强化各自的服务。例如,商务智能企业Prism Skylabs在其Prism Vision应用中加入了计算机视觉API(Computer Vision API),以帮助组织机构搜索闭路电视和安防摄像头所拍摄的内容,从而寻找特定的事件、物品和人员。

微软人工智能及微软研究事业部全球资深副总裁Andrew Shuman指出,整套认知服务工具集发端于微软普及人工智能的愿景,旨在将微软在人工智能和机器学习领域的专业知识广泛地提供给开发社区,为最终用户创造更加愉悦和强大的体验。

Andrew Shuman

微软人工智能及微软研究事业部全球资深副总裁

“如今,软件能够观察人类、聆听、应答并了解周边的物理世界,这堪称一次重大突破,因为它使界面变得更加人性化、更自然、更易于理解,因此在很多不同场景中更具冲击力,”Andrew说。“即将到来的这个时代会从真正意义上以更有趣的方式强化和丰富计算机的能力,并惠及更广泛的人群。”

新体验、新故事

微软认知服务都能给人们带来哪些新体验,激发哪些新创意呢?

以Alexander Mejia为例,在成长的过程中,他总是抢着尝试有最先进图形及技术创新的最新游戏,追逐音响和视觉效果更佳的时髦玩意儿以及将剧烈的身体动作转化为屏幕上角色行动的新交互方式。

近年来,在担任游戏行业创意总监的工作中,Mejia意识到来自新体验的劲道正在减退——计算能力的成倍提升并未带来游戏兴致的倍增。“接下来会怎样?”他问道。“能够带来全新体验、让游戏玩家们尖叫的技术飞跃又是什么?”

这个问题催生了一次新一代虚拟现实技术的演示。他戴上头盔,开启了一次狂野的过山车之旅。肾上腺素奔涌的体验又回来了!他说,这种体验让人震撼。

“在虚拟世界中,你会相信那些东西就是真的,”他说。“如果我们把一个人物放在你面前,你会做什么?你会试着与他交谈吗?”

这个想法后来发展成为一项商业计划。Mejia成立了自己的公司——Human Interact,并着手研发虚拟现实中的讲故事体验和技巧。该公司的成名作《星舰指挥官(Starship Commander)》可让玩家在以超光速穿越时空的同时控制故事情节,并在每个回合中与各色虚拟人物交谈。

为了实现真实而快节奏的动作,Mejia和他的同事需要准确和响应敏捷的语音识别功能。“一定要做到这一点,任何人在任何时候说的任何话,【语音识别引擎】都要能够理解,并且沿着脚本中正确的路径运行,”他解释道。他随后补充说:“这,就是微软认知服务的魔力。”

视频:微软和人类互动玩家控制星舰指挥官

创建自定义语音模型,解锁更多场景

现代语音识别技术依赖于机器学习统计模型,可借云计算和大数据之力,将声音片段转换为文本,构成口语内容的精确转录。

例如声学模型,它是一种分类器,能将特定语言的音频短片段标记为几个音素或声音单元。这些标签与来自相邻片段的标签结合,就可以预测目标语言中将要说出的词汇。预测过程由一部将每个单词拆分成音素的目标语言字典作为索引。

同时,语言模型通过衡量目标语言中每个被预测单词的常见性,对预测进一步精确细化。语音识别系统在处理发音类似的单词时,更常见的单词被选中的概率更高。这些模型还会考虑上下文,以便做出更准确的预测。Seltzer解释说:“如果前文是‘The player caught the(选手抢到了)’,那么‘ball(球)’被选中的可能性就要大于‘fall(掉落,与ball发音相近)’”。

微软先进的语音识别引擎背后的声学模型其实是深层神经网络,这种分类器源于人类大脑模式识别理论的启发。研究人员借助在云中运行的高级算法和数千小时的音频数据,对该模型进行了训练。

2016年10月8日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER)低至5.9%的突破 ,创造了当时该领域内错误率的最低纪录。这意味着微软语音识别系统已经能够像人一样识别谈话中的词汇,极具里程碑式的意义。而这项标准化测试所采用的基准已被学术界和业界研究人员沿用了20多年,具有极强的权威性。

“现在,如果你把从未接受过嘈杂的工厂对话数据训练的同样一款系统放在真正的嘈杂工厂里,它是不可能出色的完成任务的,”Seltzer说。“这就是微软自定义语音服务(Custom Speech Service)大显身手之处。”

该服务允许开发人员针对嘈杂工厂车间的声音和工人们的术语,自定义声学和语言模型。例如,可以训练声学模型在液压设备和钻床的轰鸣中识别语言;而语言模型则可加以更新,以便对工厂特有的术语(例如螺母、螺栓和汽车部件等)词汇赋予优先权重。

究其根源,自定义语音服务利用一种算法将微软现有的语音识别技术运用于第三方开发人员提供的数据。从已经通过大量数据进行过训练的模型着手,所需的与特定应用相关的数据量就会大大减少。在开发人员自有数据不足的情况下,语音识别系统会重新恢复到已有模型上。

“基本的理念是,系统越专注,它们的表现就越好,”Seltzer说:“自定义语音服务的任务就是让用户能够使系统专注于自己真正在乎的数据上。”

属于你的虚拟现实

Human Interact公司的《星舰指挥官》的故事发生在一个科幻的世界里,其中不少单词和地名都是开发者创造出来的。当Mejia用这些关键词和短语训练自定义语音服务时,他发现这套新系统的错误率只有构建早期原型的开源语音转文本软件的一半。

接着,Mejia求助于微软语言理解服务来解决另一个难题——理解玩家话语的意图。“有很多不同的方式来表达‘开始行动’”,他解释道。“比如,‘我们走、自动驾驶、带我离开、超光速行进、启动超级驱动’等,这些都是玩家在我们的游戏进行中会用到的表达方法,特别是在紧急时刻,因为这种时候你往往并没有太多时间思考。”

目前已开放公共预览的语言理解服务允许开发人员在机器学习模型中对分类器进行训练,通过加载用户可能脱口而出的事物类型子集,并标记这些话语的意图,就可以理解自然语言的意图。

位于埃及开罗的微软先进技术实验室主任Hussein Salama解释道,这项服务在后端利用了十多年来有关如何借助有限数据集对分类器进行训练的研究。Salama目前正在领导这项服务的开发工作。

“人们通常需要机器学习领域的专家来帮助选择正确的技术、提供正确的数据集、训练分类器,然后对它们进行评估,”他说:“有了语言理解服务,我们简化了这一步骤。只要提供一些语句和几个带有意图的短语示例,语言理解服务就可以开始训练可以精确理解此类意图的模型。”

就《星舰指挥官》而言,这种自定义功能实现了无缝连接:从示例中学习如何从非训练数据组成部分的自然语言命令中推断出意图。“这种理解从未训练过事物的准确程度着实令人惊讶,”Mejia说:“这就是人工智能。”

● 了解微软认知服务全球版:https://www.microsoft.com/cognitive-services

● 了解微软认知服务中国版: https://www.azure.cn/home/features/cognitive-services/