分享到微博 分享到人人 分享到LinkedIn 分享到Email
微软Project Oxford帮助开发人员创建更智能的应用
微软亚洲研究院
2015年5月8日

假设你是一名对关于健身的应用充满奇思妙想的开发人员。在你的理想世界中,它包含各种酷炫的技巧,例如从照片中识别出用户的脸部,或能够理解锻炼者对它所发出的启动和停止追踪一段跑步的指令。但是,这些复杂的功能都只能通过某种先进的机器学习来实现,而你却没有实现它们所需的时间或资源。

“人们在构建自己的应用时,确实不想为这些事情操心,”微软必应体验团队首席项目经理Meenaz Merchant表示。

为此,于上周在旧金山举行的Build 2015开发者大会上,微软提出了一种解决方案,一组被称为“Project Oxford”的技术,将允许开发人员创建更智能的应用,即使这些应用的开发者并非机器学习相关领域的专家,也可以实现人脸识别和自然语言解析等功能。

“作为一名应用开发人员,只要发挥你在API上的能力即可,不必担心机器学习方面的问题,”必应首席团队项目经理Vijay Vokkaarne说道。他的团队正在研究Project Oxford中与语音相关的问题。

该系列服务已经推出了限时免费使用的测试版,其中的很多技术已经在微软自家产品上使用,如微软小娜、Xbox游戏系统、One Drive云存储和即将发布的Windows 10操作系统等。这些服务还可帮助开发人员自动执行那些手工操作太费时费力的任务。例如,视觉方面的服务可以对用户提交的成千上万张照片进行分类整理,如过滤出可能包含不雅或其他不适当内容的照片,或者只是找出包含海滩风景的照片,甚至可以根据主色方案对照片进行分组等。

如果你自己动手做这些事情“就会像大海捞针一样,”Merchant说道。

无论是Windows、Windows Phone系统,还是iOS或安卓系统,此服务都能够跨越不同的平台和编程语言发挥作用。想要使用该系列服务,开发人员需要在微软云计算平台Azure上创建一个账户。

微软技术研究部门高级项目经理Ryan Galgon表示,我们提供上述服务的宗旨,是希望与已经有很多关于产品和服务的好的创意的开发人员分享这些技术。

最初通过限时免费使用的测试版提供这些服务,其中一部分原因是希望更好地了解人们是如何使用这些服务的。“我们希望了解开发人员需要这些服务为他们做什么,”Galgon说。

这套全新的机器学习系列服务已作为微软Azure产品组合的一部分向开发人员开放。Project Oxford目前主要包括以下四个部分:

人脸识别:这项技术可以自动识别照片上的人脸,对相似的人脸进行分组,并检查是否完全相同。它可以用于轻松识别出某张照片上出现的用户,以及允许用户使用面部认证登录账号等。

语音处理:该技术可以识别语音信息并将其转换成文字,反之亦然。开发人员可以使用它开发解放我们双手的工具,如口述听写,或者自动读出指令或其他必要的功能。

可视化工具:此项服务通过分析视觉内容,查找例如不适宜的内或主配色方案等。它也可以检测和理解照片中的文字(例如球队名称),并可以按照片内容(如海滩、动物或食品等)进行分类。最后,它还可以自动将照片压缩成一个可辨认的缩略图,方便浏览。

语言理解智能服务(LUIS):该服务目前仅供受邀测试,它能帮助应用理解用户用自然语言或日常口语或键入的内容。借助机器学习,让系统根据经验更好地预测用户想要什么,从而明白人们究竟希望应用做什么。

 

例如在运动应用中,系统可能会学习到,当用户说“我要开始跑步”“开始跑步”甚至“去跑步”时,意思都是要开始追踪这个人的移动距离了,而且这种活动的类型就是“跑步”。同样,像“请停止跑步”“暂停跑步”或“我跑完了”都是在告诉系统应该停止追踪了。

这套系统建立在一个相对简单的接口上,所以各种背景的开发人员都可以教会LUIS哪些信号需要引发哪些行为。此外,随着人们使用应用,LUIS将学会理解人们说这样的话究竟是什么意思:“我实在受不了啦,停了吧。”

如果你是一名开发人员,并且对Project Oxford感兴趣,现在就可以一试身手。语音、图像和人脸识别的试用版工具都已开放使用,LUIS项目目前仅限受邀人员使用。