分享到微博 分享到人人 分享到LinkedIn 分享到Email
微软语音助手Cortana:精彩待续
微软亚洲研究院
2014年5月7日

http://s8.sinaimg.cn/large/001p48JAzy6IvGQporB07&690

文章译自:Anticipating More from Cortana

编者按:借助必应搜索引擎赋予的力量,微软语音助手Cortana能够模拟人的语气及思考方式与用户互动,提供更多帮助。Cortana包含微软研究院在多个研究领域的成果,博客中微软杰出工程师Larry Heck分享了Cortana从基础技术到产品体验的过程,以及更长远的目标。

我们大多数人都梦想着拥有完美的个人助手——需要的时候它总会在那里,能够时刻读懂我们的心,知晓我们的每一个需求,并悄悄地帮我们安排生活琐事。伴随着Windows Phone 8.1的推出,全新数字个人助理Cortana终于揭开了神秘的面纱。它被必应搜索赋予了强大的力量,让用户离梦想又近了一步。

对于微软研究院杰出工程师Larry Heck而言,Cortana首个版本的发布让他尝到了心中所想变为现实的甜头。展望未来,Heck期待Cortana能够越来越善于推测用户的需求,并且以更加自然的方式进行互动。

事实上,Cortana已经在某种程度上实现了这一点。它不仅能简单地执行声控命令,还会不断了解用户并且逐渐实现个性化,这样一来Cortana就能主动地在对的时间执行相应的任务。如果用户每天下午离开办公室前都会询问室外温度,Cortana就能学会无需询问便自主提供相关信息。

此外,如果Cortana有权限访问手机数据,就可以读取日历、联系人和电子邮件信息,更好地理解用户所处情境和人脉关系。Heck在当地乐团演奏​​古典小号,他可能会收到有关排练时间变动的日历更新。Cortana会告知他时间有变,而如果新时间与另一项约会冲突,它也会发出提醒。

优势来源于研究深度与广度

虽然很多人会将此类逻辑关联和类似人类的行为笼统地归类为“人工智能”(AI),但Heck指出,研究领域的多样性对Cortana的底层技术做出了贡献。他认为,Cortana是微软研究院在与个人助理技术相关的多个领域工作的具体体现。

“虚拟个人助理所需的基础技术包括语音识别、语义/自然语言处理、人与机器对话建模以及口语生成,”他说:“每个领域中都有一些微软研究院多年来一直试图解决的研究课题。事实上,在其中的每一个领域,我们都是先行者。”

The Cortana user interface

Cortana的用户界面

因此,Cortana的设计理念是植根于最先进的机器学习和数据挖掘算法。不仅如此,开发人员和研究人员都能够使用微软横亘商业和企业产品的广泛资产,包括它们与必应搜索和微软语音算法及数据之间的牢固关系。

如果说Heck为Cortana的未来设定了高标准、严要求,那么这正是微软研究院内部深厚且多样的专业知识积累的结果。

“微软研究院在人工智能领域有着悠久而广泛​​的经验,”他说:“这里有人工智能领域领先的科学家和先驱者。这项工作的愿景和努力方向源自Eric Horvitz对会话互动的研究和理解,这可以追溯到90年代初。语音和自然语言处理是长期存在的研究领域,机器学习也是如此。此外,微软研究院还是深度学习和深度神经网络研究的领导者。”

从基础技术到整体体验

2009年,Heck在微软开始了当时被称作“对话理解”(CU)个人助理的研究工作。

“当时我在Satya Nadella领导下的必应研发团队工作,”Heck说:“这项工作的技术愿景是开发虚拟个人助理。不久后Steve Ballmer任命Zig Serafin来统一领导微软公司上下的各种语音研究工作,Zig邀请我加入团队并担任首席科学家。在这个岗位上,我与Zig合作,制定了详细的计划,并开发出现在人们所知的Cortana。”

Researchers who made contributions to Cortana

曾共同开发Cortana产品的研究人员:(左起)上排-Malcolm Slaney、Lisa Stifelman和Larry Heck;下排-Gokhan Tur、Dilek Hakkani-Tür和Andreas Stolcke。

Heck和Serafin在将对话扩展到网络广度的基础上,为微软的数字个人助理技术制定了愿景、使命和长远规划;他们还建立了一支具有专业知识的团队,来打造Cortana的初始原型。作为项目启动的第一步,Heck的团队为产品团队招募并培养了几名博士级工程师来从事开发工作。

“正是由于搜索和语音技能的组合是独一无二的,”Heck说:“我们需要确保微软拥有对的人才和技能来实施这个项目,于是我们聘请了最棒的人来做这件事。”

团队就位之后,Heck和他的同事加入了微软研究院,继续立足长远,致力于研发下一代个人助理。

参与这些早期工作的主要研究人员包括微软研究院高级研究员Dilek Hakkani-TürGokhan Tur以及首席研究员 Andreas Stolcke。Heck团队其他早期成员包括首席研究软件开发员Madhu Chinthakunta和首席用户体验设计师Lisa Stifelman.

“我们从低层次的基础技术入手,”Heck回忆道:“接近项目结束时,我们团队进行了高层次、全方位的可用性研究,为产品组提供了指引。就像爬到轮船的瞭望台上俯视整个体验。”

“微软研究院的研究经理Geoff Zweig 负责主导可用性研究。他带人过来试用了原型——让他们拿起来就用。然后,我们从中汲取教训。微软研究院是研究可用性的好地方,因为我们既了解基础技术,又懂得长期愿景和工作方法。”

更长远的眼光

自Cortana团队成立以来,Heck一直是不可或缺的组成部分,但即使在2009年加入微软之前,他就已经对CU个人助理的早期研究做出了贡献。20世纪90年代在斯坦福国际研究院(SRI)供职时,他就从事过一些深度学习和深度神经网络技术的早期研究。

Heck还曾作为SRI团队成员,为美国政府国防高级研究项目署资助的CALO人工智能项目奠定了基础。该项目旨在打造新一代的认知型助理,可以从既往经验中学习,并且在不明情况下进行智能推理。后来他在Nuance和雅虎的工作经历又让他在相关研究领域获得了更丰富的积累,而这些领域又对Cortana的强大功能做出了重要贡献。

Cortana的记事本菜单

为此他将目光投向了更远的地方。

“我认为,现在的个人助理技术好比初期的搜索技术,”他说:“它将会在有可能覆盖到的各个领域内不断拓展。历史的演进总是相似的。在90年代中期,早在搜索出现之前,曾经出现了雅虎目录。由于它能够组织信息而很流行,但随着网络的成长,目录模型变​​得尾大不掉。就在这个时候,搜索出现了——现在你可以在网络上搜索任何东西。”

Heck表示,个人助手将会沿着类似的轨迹前行。当前主要致力于实现最常用的功能,如提醒和日历等,但随着技术的成熟,个人助理必须扩展到其他领域,使用户可以随时随地获取任何信息,并处理任何事务。

“微软开发了Cortana,就是要扩展到所有不同领域,”Heck说:“有长远的目标意味着我们有长期的架构。我们的目标是支持所有类型的人机交互——无论是语音、文字或手势——跨越信息和功能的各个领域,并且让自然交谈变得更加容易。”