Skip Navigation Links首页 > 新闻中心 > 所有新闻 > 微软亚洲研究院演绎“中国创新”
微软亚洲研究院演绎“中国创新”
再次占据微软技术节全球研发参展成果三分之一
发布日期:2008/03/07

2008年3月4日,美国雷德蒙---- 今天,微软技术节在美国微软总部开幕。微软亚洲研究院携45项最新研究成果参展,这些成果涉及多媒体技术在互联网的应用、网络信息处理等广阔领域。可观的参展技术数量和创新的研究成果,使微软亚洲研究院再次成为备受瞩目的焦点。

被誉为“计算机研究领域盛宴”的微软技术节是微软研究院年度最大的活动,其主要目的就是让微软产品部门可以零距离接触各种最新技术,从而为技术向产品转化提供便利。作为微软在美国本土以外最大的基础研究院,微软亚洲研究院在微软的基础研究和技术研发中的地位举足轻重。同去年一样,此次微软亚洲研究院发布的最新技术,在微软全球5大研究院中占所有参展技术的近三分之一。微软一向视基础研发为生命线,位于北京的微软亚洲研究院正在这一舞台上日益活跃,同时这也体现了中国计算机工业正跻身于国际前沿,并受到越来越多的关注和认可。

“我们在各个领域都取得了令人满意的新成果, 保持了突破和创新的势头。” 微软亚洲研究院院长洪小文说: “中国的计算机和互联网产业发展速度和水平令人瞩目。很多人觉得微软亚洲研究院是一个跨国公司,事实上我们也属于中国的一部分,过去十年发表了很多高端论文,还做了很多技术转移,我们证明了一点——在中国,由中国人也能做计算机最尖端的东西。我们未来的目标是继续发挥我们的人才和科研优势, 推动中国IT产业的研发和技术创新走向国际前沿。”

与互联网相关的应用和技术是未来的一个重要趋势, 微软亚洲研究院此次展示的成果中就有相当一部分在这方面有所突破。除此之外,微软亚洲研究院此次参展的技术覆盖了应用于互联网服务的多媒体检索、计算机系统和存储、数字娱乐及计算机图形、分布式系统研发、大规模数据分析等领域,展示了亚洲研究院在各重要领域雄厚的研发实力,并体现了这些领域的未来趋势。创新不仅体现在了对现有技术的进一步突破,更表现在对一些新的技术的大胆探索。

微软亚洲研究院此次面向公众展示了带去的45项成果中的几项,它们主要集中在数字多媒体娱乐和网络搜索两大方面。这些技术中,有的更为贴近消费者:如能提供给用户“smart shuffle(智能播放),并能基于用户的反馈和偏好推荐相似音乐的音乐导航(Music Steering);还有“能说会唱的小人头”,能展示一个新的音频/视频人机界面,经此界面可将文字转成语音,词与谱换为歌唱,此外头部动作与嘴型同步的视频信号也将与说/唱的音频信号一同播放;视频拼贴提供了一种新颖的、更紧凑的、视觉上更吸引人的浏览方式,提供更高效和更愉悦的视频体验。而Lingo和GeoLife,则将为网络搜索服务带来更丰富的内容和深层的定义: Lingo——面向英文写作的垂直搜索引擎,搜集并索引了大量的和英文写作相关的资源,如单语、双语例句等,用户利用例句搜索可以获得不同领域以及不同风格的好例句,从而获得更有效的学习英语的帮助;地理人生(GeoLife)是一种以GPS数据为中心并基于电子地图的应用系统,基于个人的GPS数据以及相关联的多媒体内容,GeoLife在地图上以动画的形式生动地重现用户过去的经历。两项图形学的最新技术,则可以帮助游戏制作得更加生动逼真:光在烟的传播中极其复杂,动态烟的实时绘制技术解决了图形学领域一个极具挑战性的问题;而高动态范围图像幻象技术,可以向低动态范围图像中添加因曝光过度或曝光不足而丢失的高动态范围图像细节。

一年一度的微软技术节始于2001 年。去年,共有近7000人参加了微软技术节,进行了广泛的交流。今年,有来自微软各个研究院的150余项技术和24篇论文参展,更多的最新科技和研究将会被应用到微软的产品中。

微软亚洲研究院是微软公司在美国本土以外的第二个基础研究机构,也是微软海外研究院中规模最大的一个。自1998年11月成立以来,微软亚洲研究院发展极其迅速。目前已经拥有在自然用户界面、新一代多媒体、以数字为中心的计算、互联网搜索与在线广告、计算机科学基础等领域的350多位优秀的科研技术人员。他们中的许多领军人物是从海外归来的、在各自的学术领域有很高造诣的年轻学者。微软亚洲研究院迄今已在国际一流学术刊物和会议上发表论文超过1500篇,并已有多项技术成功转移到微软公司的核心产品当中,如Windows Vista、2007 Office System、Office XP、MSN live、Office System 2003、Windows  XP、Windows  XP Media Center Edition、Windows  XP Tablet PC Edition、Xbox等。


微软技术节(TechFest)部分最新技术介绍

动态烟的实时绘制

烟的绘制是计算机图形学中的一个具有挑战性的问题,这是因为光在烟中的传播非常复杂。在布满烟的三维空间中,光在每一点都会被吸收或者散射。由于烟在空间中的不规则型,空间中每一点地吸收和散射程度都是不同的。即使是对一个静止的烟,这些吸收和散射的次数和复杂度都会带来庞大的计算开销。对于动态的烟来说,这种计算代价更为昂贵。

微软亚洲研究院提出了一种在动态的低频环境光下的实时烟绘制算法。该算法可以很容易地在目前的图形处理器上实现,从而允许用户实时地修改视点和光照,甚至修改烟的一些光学属性。整个算法只需要很少的预处理和存储开销。该算法是第一个能提供单次和多次散射效果的实时烟绘制算法。算法的绘制质量相当于传统的离线绘制算法,例如光线跟踪。该算法也可以被扩展到绘制一些高频光照效果,例如光晕,光柱和体阴影。

高动态范围图像幻象

"高动态范围图像幻象"技术,可以向低动态范围图像中添加因曝光过度或曝光不足而丢失的高动态范围图像细节。方法基于一个简单的假设:对于曝光过度或不足的区域,通常都能在同一图像中找到具有类似纹理且曝光良好的区域。因此,可以通过在具有不同光照强度的区域之间传递纹理细节来添加高动态范围细节。在这个方法中,用户仅需用一些笔划在图像中标出曝光良好的区域以及具有类似纹理但曝光过度或不足的区域,这个的算法会自动"恢复"出曝光过度或曝光不足区域中的细节。实验证明,对于很大一类图像来说,这个方法仅需要很少的用户交互,就可以显著地恢复图像中丢失的纹理细节。

视频拼贴

视频拼贴是一种紧凑的描述视频的方法,它使用一幅自动合成的图像来摘要描述视频的主要内容。对于任一视频,视频拼贴算法选择最有内容代表性和高视觉质量的一组视频帧,并抽取这些帧图像中的重要区域,然后将这些区域无缝地拼接在一个指定的画板上。相对于已有视频浏览方法,视频拼贴提供了一种新颖的、更紧凑的、视觉上更吸引人的浏览方式。视频拼贴可以很容易地集成到现有视频管理系统、视频共享网站以及视频搜索引擎中,以提供更高效和更愉悦的视频体验。

能说会唱的小人头

“能说会唱的小人头”展示一个新的音频/视频人机界面.经此界面可由隐马可夫统计模型将文字转成语音,词与谱换为歌唱,此外头部动作与嘴型同步的视频信号也将与说/唱的音频信号一同播放。

统计模型由音频与视频的信息和相关的文字,歌词与音符(旋律)批量资料进行训练.以音频与视频的信息及其运动轨迹建成参数化的统计模型.语音参数模型由语音音位的频谱包络,音长与基频之音高三部分组成.歌唱模型则由歌词与旋律训练而成。

基于最大似然度的统计模型既由个人之语音和歌唱数据客观生成,个人化之语音和歌唱信号亦可依同一客观准则合成.在视频中,自然的头部动作,同步的发声口型也可由相关的韵律变更和音位的次序而产生.如有需要,头部动作与嘴型变换也可以互动模式由人工进行调整。

音乐导航

音乐导航(Music Steering),是指通过音乐内容分析、推荐和筛选,交互式生成音乐列表,使你可以方便地找到想听的歌曲。当用户有几千首歌储存在音乐播放器中(比如iPod, Zune,和智能手机),如何选择想要听得音乐便成了一个问题。 用户可能没有时间从中选择所有想听的音乐;而且用户在不同的时候也想听不同的音乐。目前音乐播放器提供的“无序播放”(shuffle) 功能,基本上是随机播放音乐,只能满足用户最基本的需求。“音乐导航”提供给用户“智能播放(smart shuffle)” ---- 一种更便捷有效的方式来选择和欣赏音乐。

通过“音乐导航”中,用户可以只选择一首音乐,系统就会自动生成一个“音乐电台”,推荐给用户一些相似的音乐。用户可以欣赏推荐的歌曲,也可以选择喜欢或删除不喜欢的歌曲。基于用户的反馈和偏好,歌曲推荐列表(电台中的音乐)就会自动地调整。用户还可以通过音乐筛选来选择适合不同场景下听的音乐,比如在阅读时听柔和的音乐。

其中的主要技术是自动音乐内容分析,并对每一首歌检测50个音乐属性, 包括风格、乐器、音调、和节奏等。基于这些属性来推荐音乐,生成音乐电台。

面向英文写作的垂直搜索引擎

人们已经用搜索引擎帮助英文写作,例如:选合适的词、找好的例句、获得新词的翻译等。现在通过Lingo——面向英文写作的垂直搜索引擎,人们将获得更快捷、更一体化的类似体验。

我们将演示一个面向英文写作的垂直搜索引擎。尽管英文是世界上最通用的语言,但非英语母语的人们用英语写作时仍会困难重重。

我们构建了一个搜索引擎来试图解决这个问题。这个搜索引擎搜集并索引了大量的和英文写作相关的资源,如单语、双语例句等。我们将演示,用户如何用例句搜索获得不同领域以及不同风格的好例句。我们还将演示,如何用机器翻译和同义表达引擎使用户的写作风格更丰富多彩。

地理人生:在地图上搜索人生

随着GPS设备,如GPS手机/PDA,在人们日常生活中逐渐普及,大量的GPS数据正伴随着由手机和PDA产生的照片、视频等多媒体数据不断积累。如何管理好并利用这些数据为人们提供更有利的服务正在成为一个重要的问题。

GeoLife是一种以GPS数据为中心并基于电子地图的应用系统。它不但是可视化、管理和理解个人GPS数据的工具,也是多个用户共享GPS数据和交流生活经历的平台。基于个人的GPS数据以及相关联的多媒体内容,GeoLife在地图上以动画的形式生动地重现用户过去的经历。这不但有助于用户有效地回忆自己过去的往事,也可成为一种朋友之间交流生活经历的更便捷、更直观的方式。从不断累积的个人数据上,GeoLife还可帮助用户了解自己的生活规律,以保障健康的生活习惯。当更多的用户将自己的数据发布到公共平台与朋友分享后,人们不但可以从其他人的数据中借鉴经验和分享快乐,也可以发现热点地区和经典的旅游线路等社会群体规律。

通过提供一种基于时间和/或空间的搜索方式,GeoLife可以帮助用户快速找到特定区域和/或时间段的轨迹。该搜索特性不但有助于用户从他人的数据中高效发掘出自己感兴趣的经历,也有利于个人从自己模糊的记忆中快速激发想要回忆的事件。比如,用户可通过空间搜索功能查看他人在颐和园区域内拍摄的照片和视频,从而为自己日后的行程安排积累丰富的经验。此外,基于时间段的查询方式,用户也可发掘他人在圣诞节期间的有趣经历。

总之,通过搜索地图,用户可以反思自己的过去并规划自己的未来。