分享到微博 分享到人人 分享到LinkedIn 分享到Email
2012年微软技术节项目介绍
作者 微软研究院
2012年3月1日

微软亚洲研究院

城市地区建筑物自动解析

人们对城市地区的智能在线3D探索和导航存在着浓厚的兴趣。为此,我们需要从拍摄到的图像或视频中了解城市地区的三维结构。“城市地区建筑物自动解析”技术可以从单张或多张图像中自动检测建筑物的表面。除了对建筑物进行定位之外,它还可以在不依赖人工干预的情况下计算出每个表面的几何形状、位置和方向。这里我们使用了新开发的鲁棒主成分分析工具包(RPCA SDK),以提高计算速度和响应时间。我们将演示用户如何基于一张市区建筑的照片展开简单的3D交互。这项技术将直接惠及导航和地图应用中的视图转换,并可能成为许多关于城市地区应用的基础工具。

高保真面部动画捕捉

“高保真面部动画捕捉”展示了一种用来获取具有逼真的动态皱纹和精细的面部细节的高保真3-D面部表现的新方法。该方法充分利用最先进的动作捕捉技术和3-D扫描技术,以获取面部表现。该捕获面部表现的系统兼具静态面部扫描系统的空间分辨率,以及动态捕捉系统的采集速度。

将单一语言的说话人转变为多语言

语音用户界面需要用文语转化(TTS)来输出语音响应。有时人们甚至希望用混合的不同语言来表达,例如一个人在国外,而他并不熟悉当地语言,这时如果导航仪能够用混合语言的模式发出指令,就会很方便,也就是说,导航仪指令能够将街道名称等专有名词以当地语言的形式表达,而路线方向则用该人的母语表达。混合语言文语转化需要由一名能够同时标准说这两种语言的人来录制,但是通常我们很难找到这样的人才。该项目展示了一种新方法,将单一语言文本语音转化为多种语言的文本语音。利用一名朗读者的单语录音,该算法可以渲染出不同语言的语句,用于构建混合语言的文语转化系统。我们共26种语言的录音,可用于构建相应语言的文语转换。通过这种新方法,我们可以把这26种语言中的任意两种混合加合成。

Windows Phone 7和Kinect上的语言学习游戏

“Windows Phone 7和Kinect上的语言学习游戏”是一个语言学习项目,侧重于如何在各个微软平台上促进愉快的“寓教于乐”体验:

•SpatialEase: 用一个Xbox 360 Kinect游戏学习语言,这是一种将语言与思想和行动相联系的学习方式。学习者必须迅速理解第二种语言的命令,例如对“把左手向右移动”这句话的翻译,同时相应地移动自己的身体。

•Tip Tap Tones:这是一个用Windows手机游戏学习中文发音的游戏——一种高效的对耳朵和大脑进行再培训的手机游戏,能够快速而准确地感知带有声调的中文音节。

•Polyword Flashcards:这是具备综合性技能游戏的“网络抽认卡”。在我们的自适应学习算法——已转移到了必应词典,在其基础上,我们创建了一个HTML5平台,用于深度个性化的学习,并将语言学习、游戏和探索融为一体。

支持手势识别的下一代网络摄像头

该项目展示了一个新的网络摄像头硬件原型,并演示了使用该网络摄像在新的用户游戏场景中的应用。新一代网络摄像头具有更宽广的视角,同时可以捕获双目立体视频和高精确的深度图像,精确的深度图像处理不仅能够支持 PC上的现有的KINECT场景,而且还能够支持更精细的无触摸屏的手势控制用户界面。在研究方面,除了计算机视觉方向之外,该项目还包含算法硬件加速以及一个全新的图像传感器设计。

微软雷蒙德研究院

Beamatron

Beamatron诠释了一个全新的强化现实概念,将一台投影仪和一个Kinect摄像头整合在一个云台上。云台能够将投影图像投影在房间的任何角落。同时,深度摄像头接受投影图像因投射表面形状而产生的翘曲,并且可以让所投射的图形以合乎物理学原理的方式做出反应。例如,一辆投射的虚拟汽车既可以在房间的地板上行驶,同时也会做出碰撞障碍物以及上下坡动作。在另一项应用中,我们考虑把告示和其他图形自动放置在用户的视野范围内,以引起他们的注意。

Holoflector

Holoflector是一个独特的、现实增强交互镜子。在你自己映射基础上正确添加图像,实现你从未见过的增强现实体验。它同时利用Kinect和Windows Phone相结合的能力,推断用户手机的位置并渲染悬浮于手机上的图像。

可穿着的多点触控交互

“可穿着的多点触控交互”是深度感应和投影系统,能够在常见表面上实现交互式多点触控应用。除了肩戴式系统之外,用户身上及环境中没有任何其他仪器。最重要的是,在这种表面上,“可穿着的多点触控交互”无需任何校准就能够提供类似鼠标或触摸屏的功能:2D界面上的X和Y位置,以及手指是“点击”还是悬空等,从而实现多种多样的交互。手部的可靠操作,例如,需要直径为2.3厘米的按钮。因此,可以想象,今天任何能在移动设备上做到事情,都可以在手掌心上实现。

网页图片上的自动“文本弹出窗口”

必应主页为其首页图片提供“热点搜索提示”功能。这些图片是经过仔细选择的,而为使提示语句更有趣,它们都是由人工书写而成的。“网页图片上的自动‘文本弹出窗口’”能够为大部分网络上流行的图片自动生成类似的文字说明。系统的核心是一个脱机文本提取过程,挖掘网络上与给定图片相关的有意义的语句。在这一过程中,该应用检查句子语义的相关性、多样性、最优语句结构,同时进行内容过滤。在数据库中对结果进行索引。该应用程序的前端集成在IE的必应工具栏中。每当用户浏览一个网页,该应用程序就会查询数据库,并且以必应文本“弹出框”的方式显示网页上图片的文字描述。

微型视频剪辑:照片的静动相间

一幅静止的照片并不足以记录一段具有持续性的时间。视频是记录持续时间的传统方法,然而在随手拍摄的视频中,我们希望捕捉到的主观“瞬间”往往被淹没一片混乱之中——左摇右晃的拍摄、无关杂乱的背景以及无处不在的噪声。该项研究提供了一个创造性的镜头,通过对输入的视频剪辑进行时空合成和编辑可把焦点在特定时刻放在重要因素上。“创建微型视频剪辑捕捉重要瞬间”是一个交互式应用程序,使用半自动化的方法,帮助用户创建“微型视频剪辑”——这是一种源自手持拍摄视频,但介于静态图片和视频之间的图像类型。

Lifebrowser

为更好的理解人们以及协助他们日常工作和生活,机器学习正在以很多新的方式被应用。Lifebrowser利用机器学习和推理能力帮助人们畅游于大量个人存储信息之中,这些存储包括个人信息、约会、照片,活动——他们在过去几天、几个月甚至几年搜索和网络浏览记录。该原型学习还能推断“记忆里程碑”,即那些人们认为重要并希望记住的事件和活动。该系统围绕推断的里程碑事件构建了一个时间轴,准许用户通过“容量控制”查看时间轴上的细节。通过该系统,用户也可针对里程碑事件进行搜索和检索。

应用科学组


使用Wedge技术的远程呈现技术:神奇之窗门户网站

在体感和扫描交互基础上用平面透镜看半透明OLED上的小说。

通过正确拍摄角度和观看角度便可无需眼镜实时体验3D视窗远程呈现。

高性能触控: 体验比当前系统少两个数量级延迟的触摸显示系统。

屏幕后的叠加交互: 通过一种视点相关且深度矫正的注视在屏幕后与透明OLED进行交互。

Mayhem: 这是一个可以自由使用、开放源代码的Windows应用程序,可以让几乎每个人都能使用计算机并跨越他们所有的设备自动执行。只需选择一个事件(例如,您最看好的股票的价格达到你设定的触发值、特定天气变化或者对Kinect说些什么等等),然后选择一种反应(例如,向前翻过一页PowerPoint幻灯片、打开一盏灯、开始播放电影等),只要几秒钟时间,你的联机体验就开始了。


微软剑桥研究院

什么是自然用户界面(NUI)?探索自然交互

自然用户界面激发研究员们探索更多新的交互方式,例如手势、声音以及触摸等。在此我们通过多个演示展示了新发开的一种独特的、基于Kinect手势交互的交互机制,它开启了用不同方式、在不同情景下的新交互体验。我们将通过一个演示展示如何将3D图片的非触摸系统用于动作空间甚小的血管手术。在另一个演示中,我们展示了在暗处,Kinect技术如何进行交互,例如通过声反馈帮助我们感知看不见的物品。这些演示是否真的更自然还有待商榷,但他们带来的新的用户体验无疑为我们开启了未来交互无限可能的想象空间。

搜索新体验

该项目探索了人们搜索体验的新方式,这种体验与针对搜索请求进行快速、相关搜索为互补。尤其值得一提的是这些概念关注消磨时间的新方式,而不是在互联网上节约时间。项目组成包括:

• 一种有机搜索,随着时间不断改进呈现的搜索结果,并将你的注意力吸引到你最喜爱的事物上。

•一种描绘和封装搜索旅程的新方式,让你在到达目的地的搜索过程中获得乐趣。

•一种搜索结果包装的方式,使这些结果值得收藏,并能够馈赠他人。

这些演示作为一个整体,强调在追求和寻找的过程中用户的自我表达,以及对搜索结果的创造性运用。他们同时强调搜索旅程的重要性而不是搜索结果提供的速度,并认为用户在互联网上更多时候是在闲逛和探索,而不是快速的一探究竟。

FetchClimate!构建地理网络服务

大量可用的气候数据覆盖着整个地球表面。但是,即使是专家们也会发现,要想获得所需的气候信息却是异常的困难:定位数据集、谈判获取许可权限、下载大量文件、统一文件格式、再查找其他数据库、过滤、插值、重建网格等等!请进入FetchClimate:一种在Windows Azure上运行的快速而智能的气候数据检索服务。你可以通过装有Silverlight的Web界面或从任何.NET程序内部调用FetchClimate。FetchClimate可以在从全球范围到方圆几公里的任何网格分辨率、从1900年到2010年任何年份跨度、一年内的某几天、甚至一天内的几个小时的时间上工作。当有多个数据源可用于回答您的查询时,FetchClimate会自动选择最适合的,并返回所请求的值,以及不确定性参数和数据出处。整个查询可作为单一的URL实现共享,让其他人也能获取完全相同的信息。

微软研究院学术合作部

ChronoZoom:大数据时代的大历史

想从有成千上万的数字图书馆、档案室、收藏室以及存储库中找到适用于教育、学习以及研究的数据集是非常困难的。要想在人类和科学之间真正架起桥梁,我们需要一个基于数据虚拟化工具的动态云,这样教育人员、研究者以及学生很容易的使用、对比、了解宇宙、地球、生命以及人类的历史。他们也能够很容易的使用在某个地方的富媒体集并发现一些新的机会。这些富媒体集包括音频、视频、文字、PDF文件、图表、图形等。ChronoZoom能够实现:

•毫不费力的在一年到数十亿年间进行转换。

•在不降低精度的前提下在背景中显示历史阶段、事件和趋势。

•在不同领域和学科之间比较与时间相关的大量数据。

•更好地理解学科之间的因果作用关系,获得深刻见解以及塑造未来的能力。

机器翻译:人人翻译为人人
微软翻译定制版(MTCE)运用自我服务模型,在任何两种语言之间建立高度定制化的自动翻译服务。MTCE让语言社区、服务提供商和企业能够创建自动翻译系统,从而让讲任何一种语言的人都能与讲任何其他语言的人一道共享和获取知识。通过为目前主流翻译引擎尚不支持的语言提供翻译服务,这将有助于非主流语言保持活力,好让后代也能使用这一语言。这种基于Azure的服务,允许用户上传语言数据进行定制化训练,而后构建和部署定制化翻译模型。用户可以使用微软翻译API或网页小工具来获取这些机器翻译服务。

微软研究院eXtreme计算组

借助必应实现的企业Azure数据服务

该项目的目标就是利用必应的数据资产,尤其是查询记录、网页抓取和社会化媒体数据,受益于企业应用。该项目展示了我们到目前所取得的进展。通过利用必应数据资产、微软云计算基础设施以及深度数据分析,该项目可识别有潜力被企业广泛应用的主要Azure数据服务。该项目展示了微软企业软件如何利用这些数据服务,以及借助SharePoint搜索、微软办公产品和服务的基于必应的增强功能。

微软印度研究院

供课堂使用的学生情况调查自然用户界面

在课堂上,教师面临的最大挑战之一,是推测学生是否能跟得上讲授的内容和进度。对于远程教育课程而言,这个挑战尤其严峻,因为学生与教师之间是物理隔离的。该项目提出了一种全新的低成本技术,用于在上课时对学生进行随堂调查。该方法让教师向全班学生提出一个多项选择题。学生举起一张纸作为回应,纸张上印有类似于QR码的代码,其中编入了学生们的答案以及他们的学生证号码。一个网络摄像头自动识别学生们的反馈,并应用计算机视觉技术供教师进行即刻评估。我们已经构建了这个系统,并在印度班加罗尔的学校里经行了初步试验。我们的实验表明,这个系统如笔试一样准确,像举手一样快速,而且比其他的电子解决方案成本低至少10倍。

IllumiShare

IllumiShare实现了身处两地的人在任何表面上共享任何物理或数字物体。它是一个低成本,看上去就像一台台灯似的外设设备。正如台灯照亮它所指的表面,IllumiShare也共享了一个表面。IllumiShare通过使用一对摄像机和投影仪组合来实现,即利用摄像机捕捉本地工作区的视频,再利用投影仪将远程录像投影到本地。通过IllumiShare,人们可以各自使用真实的笔和纸一起素描;远程参会者可以与会议室的白板进行交互;甚至孩子们还可以与玩具的真实版来一次远程约会。