分享到微博 分享到人人 分享到LinkedIn 分享到Email
2011年微软技术节项目介绍
作者 微软研究院
2011年3月7日

微软亚洲研究院

能说会动的3D真人头像
此研究展示了一个高写实,能说会动的3D真人头像,它的头部动作及面部表情也可自由控制。它将我们先前开发的2D真人说话头像扩展到3D。我们先使用重构算法,将2D视频逐帧转换为3D训练数据库。高维的超特征向量,其中包括了三个子分量:头部的3D几何模型、面部纹理和语音特征,用以训练隐马可夫统计参数模型(HMM)。训练成的HMM模型可以合成头部运动,变化面部纹理以及根据不同轨迹运动。能说会动的3D真人头像的几何模型可控制头部的刚体运动。同时,面部的表情和发音器官运动轨迹则可借助动态纹理的2D图像序列而自然合成。头部动作及面部表情也可以调整相应的参数来控制。新的能说会动的3D真人头像实际应用品目繁多,诸如人机界面的自然互动、多模态媒体的网络游戏和不同语言之间的口语互译等等。

所握即所得的数字笔
通过在数字笔上附加多点触摸和方向感应,我们可以识别用户握持笔的方式。在现实世界中,人们握持钢笔、画笔、素描铅笔、刀和圆规等工具的方法各不相同——我们使用户可以通过变换握持数字笔的方式来实现不同功能之间的切换,正如使用这些实际工具一样自然。

微软雷蒙德研究院

手机摄影:拍摄、处理和查看
移动电话已经成为最流行的消费数码相机。虽然其中的好处相当明显,但确实也存在挑战。用户拍摄高质量照片并不是一件容易的事。图像处理工具可以在拍摄后改善照片质量,但很少有适合于手机的图像处理工具。我们提出的基于手机并与云服务紧密结合的图像增强工具,将沉重的计算负荷都交给了云,实现了更快速的处理,而不会影响手机的性能。

ShadowDraw:交互型素描助手
您想增长绘制草图的技艺吗?ShadowDraw就是这样一款交互式写意画助手。它会自动识别您想画的东西,并提出笔划建议,供您参考。当您添加新笔画时,ShadowDraw会实时修正自己的模型,并提供新的笔画建议。ShadowDraw拥有一个大规模数据库,含有用户有可能会画出的实物图像。与用户当前笔画相匹配的从任何图像都会被合并计算显示作为“影子画笔”的建议。用户可以描摹这些笔画,以改善绘图质量。

MirageBlocks
这项研究展示了三维投影的使用,并结合Kinect深度相机捕捉和显示3D对象。演示中使用的任何有形物体都可以在转瞬间实现数字化,并以3D方式展示。例如,我们展示一个简单的模型应用,在其中,通过对几只木块逐个加以数字化并堆砌的方法来构建复杂的三维模型。这种设置也可以在远距离呈现方案中使用,其中合作方桌面上的那些真实的东西都变成了您桌面上的虚拟三维投影,反之亦然。我们的项目展示了如何将对真实世界物理行为模拟用于操控虚拟3D对象。研究采用了一台3D投影机和主动式快门眼镜。

这项研究还展示了Holoflector,这是一种独特的互动式强化现实的镜子。图形被正确地叠加在您自己的镜像上,实现了您以前从未见过的强化现实体验。我们还充分利用Kinect和Windows Phone的综合能力,推断出您手机所处的位置,并渲染出一些看似漂浮在您手机上的图形。

应用科学组:智能交互显示
我们的这项研究展示了:智能背光——自动立体可操控3D显示。多视角显示可以向不同的观众展示不同的图像。能够控制视角的智能背光,在公众场合保护个人隐私,同时节省电力。

智能显示器——悬停和触摸:Wedge和PDLC屏幕开关感应。观看显示:Wedge、Schieren和Kinect融合,用于屏幕开关手势识别。回归反射型空中手势交互显示。依托视角的虚拟视频窗口。

针对人体学输入的计算机视觉——用于观看显示的环境噪声矛盾感应。触摸型光学笔输入。用于Kinect的惯性传感辅助型SLAM。用户界面——必应操作系统概念:用于Windows Phone 7的用户意图GUI。Mayhem:一个简单的事件对行动编程应用。

使用普通照相机进行3D扫描
在消费品市场上,3D电视的风头日盛,但3D内容制作则基本上仍然是一项专业活。我们的研究展示了一个易于使用的系统,用于创建逼真、基于3D图像的模型——您只要拿着手机、照相机或摄像机,围绕着您感兴趣的对象走上一圈即可。描绘的对象可能是您的定制款汽车或摩托车,一块婚礼蛋糕,一件礼服,一种罕见乐器,或一件手工制作的艺术品。我们的系统使用3D立体匹配技术,结合基于图像的建模和渲染,创建一个栩栩如生的模型,而您只需在屏幕上、平板电脑或移动设备屏幕上旋转它即可浏览。

交互式信息可视化
我们的研究展示了一种新颖的交互式可视化技术,帮助人们理解海量数据:iSketchVis将人们熟知并具有协作性的白板界面功能用于计算机辅助数据可视化的精准数据勘探能力。人们可以直观地绘制图表和浏览数据,既可以使用基于手写笔的平板电脑,也可以以协作方式使用白板。 NetCharts允许人们能够分析包含多种属性、多种实体类型的海量数据集。它使用简单的图表来显示并汇总数据。人们可以通过拖动的方式对这些汇总数据进行浏览,并创建新的图表。传统数据集是用欧拉(Euler)图示的方式以气泡形状呈现。本研究展示了两种技术,用于简化欧拉(Euler)图示。此外,我们还展示了LineSets,它使用单一、连续的曲线来表示数据集。它简化了数据集交叉,并实现了多重互动。这是一个用于进行社交媒体的实时主题权威搜索的工具。

微软印度研究院

针对Windows Phone 7的联系人模糊搜索
移动电话用户一般通过在联系人列表中输入联系人姓名或电子邮件地址的方法来搜索。用户经常会犯各种类型的错误,包括语音、字符颠倒、误删除和替换错误等,而且在使用移动电话时,输入机制的局限让这样的情况更容易发生。我们提出了一个联系人模糊搜索功能,即便用户在查询时出现失误时,也能帮助他们找到正确的联系人。该功能以全新的基于哈希(hashing)的拼写校正技术为基础(由微软印度研究院开发)。我们支持包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、波兰语、荷兰语、日语、俄语、阿拉伯语、希伯来语、中文、韩文和印地文等在内的多国语言。我们设计了一个Windows Phone 7应用程序来展示联系人模糊搜索。该解决方案是轻量级的,可以用于任何客户方联系人搜索情境中使用。

富交互型叙事
可视化技术的最新发展使许多潜在的丰富视觉应用成为可能,并且带动了大型复杂数据集的探索的发展。其中的范例包括GigaPan.org、Photosynth.net、PivotViewer和全球天文望远镜。同时,叙事仍然是创建情感型内容(例如电影或小说)与传授复杂知识(如教科书或学术期刊)的主要形式。富交互型叙事项目旨在把多媒体故事讲述中富有吸引力并久经考验的叙事元素与最新一代信息可视化和信息探索技术中信息量大、探索性强的特征相结合。我们解决这个问题的思路并不是设计一次性应用、互联网站点或专用框架,而是把它作为一个超越具体平台或技术的数据模型。它很有可能实现全新的富交互性的内容创建、转化、扩增和呈现的方式。

微软剑桥研究院

InnerEye:医用视觉识别技术
我们的研究展示了单一底层图像识别算法如何可以实现多种临床应用,如语义图像导航、多模态图像配准、质量控制、基于内容的图像检索,以及针对外科手术设计的自然用户界面,而这些应用都是经由微软Amalga进行整合(整合的企业级医疗信息系统解决方案组合)才得以实现。

根据入住情况预测控制家居供暖
家居供暖所消耗的能量超过了任何其他形式的住宅能源支出,因此提升家居供暖效率成为节省开支和保护环境的重要目标。我们设计了一个家居供暖系统,名为“预热”,能够根据您在家中停留的时间自动调节调温器。“预热”的目的在于减少恒温器的工作时间,而不至于影响家庭成员的舒适度。“预热”构建了一个预测家中何时有人居住的模型,并使用该模型优化家居供暖的时间,节约能源的同时又不减弱舒适度。此系统包含了无线网络和被动红外式居住情况感应器;温度传感器;分别针对美式风冷系统、英式注水散热器和地采暖设备设计的加热系统控制器;基于PC的控制软件通过机器学习,根据家居的当前和既往入住情况来预测工作时间表。

FUSE实验室

恩波里亚项目:个性化新闻
恩波里亚项目是一款个性化新闻阅读器,每日提供从社会新闻供稿中选取的25万篇文章。它结合了最先进的推荐系统(Matchbox)和自动内容分类系统(ClickPredict),配合使用了“增加类似文章”和“减少类似文章”选项,使用户能够根据类别或自定义关键字来微调他们自己的新闻频道。它既可以用作移动客户端,也可以在Web上使用。

针对企业的社会新闻搜索
针对企业的社会新闻搜索服务利用社会公共数据,为企业建立很好的新闻门户网站。网页的创建可以经由众包(crowdsource)的方式来提高质量。我们解决了两个问题:如何利用社交媒体,为任何给定企业提供丰富、分主题、可搜索、实时的新闻看板;以及我们能否建立某种环境,允许特定企业网页的内容来源创建由用户自己完成而不是由专业编辑完成。

微软以色列研发中心

视频人脸识别
视频人脸识别是一项新兴技术,它将会对电视、游戏和通讯等领域的用户体验产生很大影响。不久的将来,电视机或Xbox将能够识别客厅里的人,家庭录像将自动加注并能够搜索,而电视观众则能够指一下屏幕上的人像便获得相关陌生演员、运动员或歌手的信息。我们的研究展示了iLabs开发的面部识别技术。这项技术包括人脸检测、识别和跟踪的新算法。这项研究展示了半自动视频标签技术,这是一种全新的电视体验,使用视频中的人脸作为超级链接,获取更多信息,并自动识别坐在电视机、Xbox或计算机前的人。

Microsoft Research Connections

高性能癌症筛查
我们的研究展示了一套基于GPU的高性能3D渲染技术,被用于进行直肠癌筛检。这套VCViewer提供了一个基于手势的用户界面,用于对由计算机断层扫描(CT)所生成的三维图像进行浏览和分析,用于直肠癌筛检。这套查看器得到了服务器端海量渲染引擎(微软研究院开发)的支持。我们的研究展示了这台引擎在真实世界一次挽救生命的医学应用过程。此外,我们还将展示基于CPU的高性能图像处理技术,其用于对CT结肠镜图像进行加工,以便观察诊断。在微软开发者与平台推广、微软研究院以及英特尔的联合努力下,这套处理设备于马萨诸塞州总医院3D影像实验室开发成功,用于诊疗和数据并行处理。

Microsoft Research Extreme Computing Group

Excel上的云数据分析
Excel是一个成熟的数据收集和数据分析工具,广泛用于商务、技术计算和学术研究。Excel提供了富有吸引力的用户界面、方便的数据录入方式,以及真正具备互动性的假设分析。但Excel中的数据是不容易被发现的,因此不利于促进数据共享。此外,Excel不提供针对大规模分析的可扩展计算。越来越多的研究人员在利用Excel分析海量数据时,不容易分析浏览数据、寻找相关数据集或调用外部模型。我们的项目展示了如何借助研究这座桥梁,将云存储和可扩展性分析无缝地整合到Excel中。任何分析人员都可以使用我们的工具,从云中发现和导入数据,调用云规模的数据分析,进而从大量数据中提取信息、调用模型,然后再把数据存储到云中——而这一切都借助研究者们早已熟知的电子表格Excel来实现。