分享到微博 分享到人人 分享到LinkedIn 分享到Email
2013年微软技术节参展技术介绍
作者 微软研究院
2013年3月5日

微软亚洲研究院

用体感创造想象中的虚拟形象

是否已经厌倦了相貌平凡的虚拟形象?想要创造属于你自己的独特形象吗?龙虾?蝴蝶?还是外星人?BodyAvatar作为一个自然的界面,可以让Kinect玩家将自己的肢体作为输入手段,发挥他们的想象,创造出任何形态的3D虚拟形象。基于“你即是虚拟形象”的理念,玩家只需将身体姿态扫描成初始的形状,然后通过各种直观的手势直接在自己身体上操作,即可修改屏幕上虚拟形象的形态。BodyAvatar释放出每个人的创造力,让人们无需掌握任何复杂的3D建模工具,就能把自己最狂野的想象变成现实。

使用便携式设备进行3D重建

在智能设备价格低廉并大行其道的移动互联网时代,增强现实成为改善许多应用的用户体验的一项重要技术。本项目的特点在于基于3D重建技术,实现在移动电话或平板电脑上的增强现实场景。其中一个典型的场景是:假设亚马逊或宜家等商家都通过一个便携的3D扫描应用为各自的产品建立了3D模型,那么,如果你想要买一只花瓶放在办公桌上,就可以通过关键字或视觉搜索来查找候选产品。这时,只要用手机摄像头对着你的办公桌拍摄一张照片,桌上摆放着花瓶的图像就会显示在屏幕上。利用这种逼真的3D花瓶模型,你就可以四处走动,对效果进行评估,并选取自己最想要的花瓶。其他应用场景还包括面部建模、虚拟现实、社交网络分享和3D打印等。

高品质、鲁棒的视频稳定技术

对普通大众而言,能够通过手持摄像机、手机或者Surface平板电脑上获得稳定的视频变得越来越需要。但是,利用现有视频编辑工具实现高品质的稳定视频输出仍然充满挑战。例如,有些结果仍然带有抖动和意外的低频率颤动、或者经受太多的裁剪、或者产生不想要的几何畸变图像。本项目展示了一项新的视频稳定化优化技术,无需硬件支持,即可完全有效地解决上述问题。此外,这项技术还可用于不同的场景和设备:例如,安装于台式机或Surface平板电脑上的视频后期处理编辑软件,或者安装在手机上的实时稳定系统,便于更稳定的取景或视频通话体验。

微软雷德蒙研究院

面部互动

你是否有过难以形容自己的感觉的时刻?你是否曾经希望通过触觉、声音和视觉信号向身边的人传递你的面部和其他生物物理信息?这个项目从我们内在的感知和超语言沟通这个角度出发,体现出互动和沟通的意义。我们将面部表情和头部姿态看作有意义的指标,将它们映射到了许多相互关联的听觉、触觉和视觉反应上。这个项目还旨在提供一个平台,用于研究信息检索和沟通所需的各种传感技术。例如,将音乐节拍投射到人们关节的震动上,将成为帮助有听力障碍的人学习跳舞的自然方法之一。其他用途包括将注视、笑声、眨眼或音调高低映射到音频、视频和振动信号上,以营造人与人之间的亲密感。

通过自由草图用数据讲故事

本项目使用和扩展了白板动画的叙事性讲故事属性,并结合交互式信息可视化技术,创建了一种全新且引人入胜的用数据来讲故事的形式。SketchInsight是一种交互式白板系统,通过实时草图用数据讲故事。它有助于快速、轻松地创建个性化并且富有表现力的数据图表。用户勾勒出一个样本图标,SketchInsight就能通过样本草图的合成来自动完成图表。并且,SketchInsight还能让人与数据图表之间进行互动。

实时3D场景捕获和重建

该项目是一种全新的实时3D场景捕获和重建方法。这种技术使用多种鲜艳的色彩和深度图像,对可见表面进行高分辨率的体素化。与以往方法不同的是,本项目能够捕捉动态场景中的几何体,如行走中与交谈中的人们等。这种方法的关键在于一种高效、稀疏的体素显像,非常适用于GPU加速。本项目并不会将体素内存分配成为与空间中全部体量一一对应的3D阵列,而仅仅存储那些包含可见表面的体素;这样,在保证相同体素分辨率的前提下,实现了更为紧凑的显像。因此,本项目可以综合利用深度、轮廓和颜色等因素,从融合后的图像数据中捕获和处理超高分辨率体素化。

SandDance

集自然用户界面、大数据和可视化于一身:SandDance是一个基于Web的可视化系统,它利用3D硬件加速来探索成百上千件物体之间的关系。任意数据表都可以被加载,而结果也可以用facets标签进行过滤,并以各种布局加以显示。本项目也支持包括多点触控和手势交互在内的自然用户交互技术。

迈向大显示屏体验

我们正在进入一个“电器社会”,其中每一台联网设备都可以利用自己的优势来弥补其他设备的不足。与此同时,大屏幕显示器正愈发变得无处不在。很快,每个人都可能会有一台巨大的办公用显示器。本项目旨在通过解决两个重要问题来强化办公环境:1)用户接近大型显示器时:会有专为大屏幕显示器设计的全新用户体验,结合笔的使用,动动手指就能直接下命令。2)用户远离大型显示器时:我们的模型表明,手机可以用来替代大屏幕显示器,既可以用作遥控鼠标或键盘,实现数字包容;又可以作为当前体验情境的延伸,例如绘画应用的调色板;还可以作为在大型显示器上进行文档共享的启动设备。

带有触觉反馈的3D显示

本项目提供了一种可实现对3D数据集的自然视觉和触觉探索的设备。它作为一种调查性研究工具的开端,同时利用视觉和触觉反馈,实现对多种自然3D触觉交互的探索。这套桌面系统让用户得以通过自然点触交互,探索3D数据集的X、Y和Z轴。X和Y轴的互动来自屏幕上X和Y轴的点触互动,凭借视觉在数据集的X和Y轴上滚动。当用户自然地进行深度探索时,只要用手指在屏上轻轻一碰,屏幕就会沿着Z轴移动,并伴随着X、Y轴相应切割平面上适当的视频渲染。在适当的Z轴位置,触觉制动机制和其他Z轴力反馈将随着用户沿Z轴的探索而顺序呈现。

实时业务元数据提取

今天,移动用户只能依据距离信息、过时的商业评论和老旧的评分来决定自己接下来要去光顾哪个商家。但是,在用户需要决定下一步该做什么的时候,有关商家的实时信息(例如当前上客率、背景音乐音量和正在播放的音乐类型或确切名称等)是非常有用的。本项目提出,通过真实用户的签到行为对实时业务元数据进行众包。用户每次进入一个商家,本项目就会通过手机上的麦克风和先进的信号处理来推断商家的上客率、正在播放的歌曲、音乐和噪音的音量水平等。被提取的元数据既可以作为商业信息显示在搜索结果中,也可以经过索引而实现更进一步的查询功能,例如“播放嘻哈音乐的拥挤酒吧”。本项目通过多个设备上录制的真实商家音频痕迹,推断实时业务元数据的准确度达到80%以上。

教育问题自动生成

智能辅导系统(ITS)可以显著改善课堂和网上的教育体验。问题生成是ITS的一个重要的组成部分,它可以帮助避免版权或抄袭问题,并帮助生成个性化工作流程。我们可以针对各种学科领域,利用用户交互模型来演示这项功能:

• 代数证明问题:给定一个范例问题,该工具会生成类似的问题。

• SAT句子完成问题:给定一个词汇“w”,该工具会生成一个完成句子题,其正确答案就是“w”,同时会提供一些不正确的迷惑选项。

• 逻辑证明问题:给定一个输入问题,该工具生成它的变形版本。给定参数(如变量或条款的数量和大小),该工具则会生成新的问题。

• 棋类游戏问题:给定特定棋类游戏的规则,如4×4三连棋,并仅指定行/列顺序以及难度水平,该工具就能生成一些初始棋局,玩家需要走几步才能赢。

微软剑桥研究院

教会Kinect读懂你的手势

Kinect已经将全身追踪带入了客厅,让你用自己的身体姿态来控制游戏和应用。Kinect演进的下一步将是手势识别。该项目通过捕捉大量不同的人手图像集,利用机器学习技术来训练Kinect准确地辨别你的手处于张开或握紧的状态。这样,我们就可以研制出手掌/拳头检测器,其作用相当于鼠标点击的手势版。这款检测器将用于即将发布的Windows版Kinect中,并将在自然用户交互应用领域引发一轮新浪潮。

KinectFusion

Kinect Fusion仅通过一台手持Kinect for Windows摄像头就实现了3D模型的高质量扫描和重建。该项目利用C + +加速大规模并行性,实现了对各种图形硬件的支持。我们将展示简单样品,帮助开发人员加快3D扫描的速度。

运行速度堪比思维的地理数据库应用

2012年,微软与世界自然保护联盟的濒危物种红色名录结成了独特的合作伙伴关系,其核心是创建红色名录受威胁物种对应标注工具——一种空间数据库应用,帮助世界各地的专家和决策者发现、标注、探索、添加、修改和注解任何重点物种所面临的各种威胁。这款SQL Server 2012应用帮助参观者对全球生物多样性、保护区和威胁数据库进行实时查询。这款新软件力图让任何人都能“以思维的速度”轻松构建此类地理数据应用,而无需编写任何代码。该软件本身就能理解空间数据和空间搜索,由此引入了一个新的迭代搜索方法。并且生成的数据库也状态灵活,在任何时间都可以对数据库及其应用进行修改。

速度堪比思维的预测型决策系统

2007年以来,微软研究院的计算生态学与环境科学(CEES)组一直在从事建立关键性全球环境系统预测模型的基础研究。众多领域都迫切需要这样的预测能力,以支持有效决策。它们必须考虑到不确定性。近年来,如何进行这种预测的原理已经明晰:人们需要一个“站得住脚的建模途径”,其中数据和模型都被集成到一个贝叶斯情境下,它变得如此透明且可以重复,足以在法庭上成为证据。然而,技术却还落后得很远,除了一小部分最精通技术的人之外,对绝大多数人而言,这条途径都是行不通的。有请CEES分布建模器上场!这是一款广泛适用的浏览器应用,用户能够对数据进行可视化,定义复杂模型,使用贝叶斯法设置参数,并且进行带有不确定性的预测,然后与他人共享一套完全透明和可重复的结果。

提高数据发掘和分析效率的工具

信息工作者需要从各种来源中收集结构性数据,与已有的数据结合、进行分析,并基于这些数据制定商业决策。在Excel中进行数据发掘和导出的过程非常乏味和繁重,而且对数据的分析更是非常耗时或者需要具备编程技能。本项目为不是十分精通Excel的用户提供了快速、简便地发掘和分析数据的工具。在数据发掘方面,本项目支持从网页中提取结构性数据,对人物建立索引,帮助信息工作者对其进行搜索。信息工作者可以直接在Excel中进行搜索,轻松地将数据导入到电子表格中,并与已有数据进行整合。在数据分析方面,本项目展示了无缝整合到Excel中的一系列机器学习工具,能够自动推断缺失单元格的数值,发现例外,使得用户能够更有效地分析数据表格。

微软硅谷研究院

用教育视频对教材进行强化

教科书被认为是与提高学生学习最相关的教育投入。它们是向学生提供知识内容的主要渠道,教师的授课计划也主要以教科书上的材料为依据。本项目运用基于数据挖掘的方法来改善教科书的质量。这种方法包含一种诊断工具,供作者和教育工作者借助算法语言识别教科书中的缺陷。利用这些技术,我们可以通过指向特定网页内容的链接,借助算法语言对一本书的特定章节进行强化。其重点在于利用指向相关视频内容的链接对教材的章节进行强化,而这些视频内容则是从网上丰富、免费、高品质的教育视频中挖掘出来的。这项技术已经被跨越不同科目和年级的高中教科书语料库加以验证。

微软纽约研究院

病毒化内容的识别和可视化

虽然“病毒化”这个术语已经渗透到大众文化之中,但病毒化概念本身的难以捉摸却是令人惊讶的:过去的研究工作并没有严格地界定,甚至没有明确地显示出病毒内容的存在。通过对Twitter上近10亿个信息级联的分析(其中包括新闻、视频和照片的扩散),本项目已经找出了一种社会媒体病毒化的量化理念,相应地,也识别出了成千上万的病毒事件。本项目可以让用户以交互方式探索流行内容的扩散结构。选定一篇报道后,用户可以查看随时间推移的视频,表明该报道是如何从一个用户传播到下一个,从而识别出这个过程中哪些用户具有重大影响力,并查看扩散级联中任何一条路径上的tweets链条。本项目背后所包含的科学和技术可以帮助识别话题专家、发现热门话题,并针对各种内容提供病毒化指标。

微软印度研究院

人群增强型网络教育视频

近来,Coursera、EDX、Udacity和可汗学院等组织机构已经制作了成千上万的教育视频,旨在向公众提供免费的学习机会,并吸引了数以百万计的登录浏览。虽然视频呈现风格因作者而异,但它们都有着一个共同的缺点:视频制作费时费力,而且一旦发布就难以修改。VidWiki作为一个在线平台,可以利用在线观看视频演示的广大学生来反复改善它们的质量和内容,在这一点上类似于维基百科等其他信息众包项目。通过这个平台,用户将自己的注释叠加到原来的视频内容上,减轻了教师更新和完善内容的负担。分层注释也有助于视频索引、语言翻译,并将潦草字迹或图表替换成可读性更强的印刷字体内容。

微软研究院学术合作部

在触屏设备上实现流畅话题关联

在挖掘、浏览和搜索包含文字、图片和其他格式内容的文件方面,我们提出了一项新的策略:文档集合被表示成一个由关键字组成的网格,以不同的字体大小来表示文字的权重。该网格以计数网格模型为基础,这样每篇文档的词语用法和权重分布都在网格的某个窗口中得到体现。这种策略会提升信息密度和邻近文档的相关性;某些文档被映射到重叠窗口上,实际上就是因为它们包含了这些重叠词汇。在网格上,平滑的主题转变得十分明显,提供了遥远话题之间的关联,并在搜索兴趣点时引导用户的注意力。图像和其他格式的内容也被嵌入到网格内,并提供了一个多式表面,用于互动、基于触摸的文档浏览和搜索。例如,我们可以在浏览器中查阅4个月以来的CNN新闻、烹饪食谱和科学论文。

EMIC, CMIC, iLabs

用于实时流媒体的自适应机器学习

大数据通常是指数据处理的量级庞大,但在实时环境中,处理的速度也是同样重要。实时数据的直接处理能够实现对时间的迅速反应,相对于脱机数据处理而言,具有更大的竞争优势。软件和服务行业正在采用机器学习技术,以使其产出更加智能。本项目融合了高效的时间流处理技术与对机器学习的支持。该演示表明了如何将时间处理和使用Infer.NET(机器学习的数据库文件)机器学习技术编入到一个在StreamInsight中运行的推理流中,以及如何在运行时对机器学习模型提供增量在线更新。同时,本项目也展示了如何在在线流处理和离线数据分析之间进行转换,以及如何在生产系统中使用一个有效的离线推理流。这项工作将给制造和云/ IT服务领域的具体客户使用场景带来附加价值。