分享到微博 分享到人人 分享到LinkedIn 分享到Email
精选|Peter Lee:为什么顶级公司都关注研究?

“二十一世纪的计算”学术研讨会是微软亚洲研究院自成立之初便开始举办的年度学术盛会。作为中国及亚太地区规模最大、最具影响力的计算机科学教育与研究盛会之一,迄今为止该大会已在中国、日本、韩国、新加坡等多个国家和地区成功举办了17届,参会人数累计超过40,000人。

11月3日,以“Human and Machine Working as a Team”(人机协作)为主题的第18届“二十一世纪的计算”学术研讨会于韩国首尔举行,包括2002年图灵奖获得者Adi Shamir、微软全球资深副总裁Peter Lee、微软全球资深副总裁,微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士在内的众多计算机领域顶级大师,分享了他们各自独特且深远的见解。

以下是微软全球资深副总裁Peter Lee的演讲精选,由微软亚洲研究院首席研究员刘铁岩博士担任现场点评。其他演讲亦将陆续发布,敬请期待。

演讲者简介

作为微软全球资深副总裁,Peter Lee博士负责微软研究院新体验与新技术部门(New Experiences and Technologies, 简称MSR NExT)。NExT汇集世界顶尖研究者、工程师和设计师,致力于为微软和世界创造颠覆性创新技术。NExT不仅将持续推动计算机科学领域的前沿技术发展,对学术界产生深刻影响,更将通过技术研发助力微软公司长远发展并惠及全世界。

作为NExT的负责人,Peter Lee全面负责微软亚洲研究院、微软研究院新技术部(MSR Technologies)、FUSE实验室、微软研究院特别项目部(MSR Special Projects)以及多个孵化项目团队。

点评人简介

刘铁岩博士,微软亚洲研究院首席研究员,美国卡内基梅隆大学(CMU)客座教授、英国诺丁汉大学荣誉教授、中国科技大学、中山大学、南开大学博士生导师。刘博士的研究兴趣包括:人工智能、机器学习、信息检索、数据挖掘等。他的先锋性工作促进了机器学习与信息检索之间的融合,被国际学术界公认为“排序学习”领域的代表人物,他在该领域的学术论文已被引用万余次,并受Springer出版社之邀撰写了该领域的首部学术专著(并成为Springer计算机领域华人作者的十大畅销书之一)。

近年来,刘博士在博弈机器学习、深度学习、分布式机器学习等方面也颇有建树,他的研究工作多次获得最佳论文奖、最高引用论文奖、研究突破奖,被广泛应用在微软的产品和在线服务中,并通过DMTK、Graph Engine等项目开源。他曾受邀担任了包括SIGIR、WWW、NIPS、KDD、AAAI、WINE等在内的十余个顶级国际会议的组委会主席、程序委员会主席或领域主席;以及若干顶级国际期刊的副主编。他是美国计算机学会(ACM)杰出科学家、国际电子电气工程师学会(IEEE)和中国计算机学会(CCF)的高级会员,中国计算机学会的杰出演讲者和学术工委。

为什么顶级公司都关注研究?

Peter Lee

很高兴有机会在这么多聪明的学生面前发言,谈谈研究这件事,哪怕要说清楚到底什么是研究其实并不容易。

爱因斯坦说过,“如果我们知道自己在做什么,这事就不会被称为研究,对不对?“

聪明如爱因斯坦也觉得解释什么是研究并不容易。

但我可以试试在这次演讲中,说说我为什么认为研究是如此令人兴奋,以及为什么说我们正处在计算机科学研究的“黄金时代”。

今天的计算机研究每天都在发现新的东西,而这些东西往往是一些精彩的理论。但与此同时这些研究也非常实用,最终都将帮人们过上更好的生活。因此,一个有趣的现象是世界各地的大学和顶尖公司都在投入大量的人力物力从事计算机的基础研究。

像苹果、Facebook这样的大型科技公司正在建立大型研究实验室。甚至像Uber这样的初创公司在逐步变大时,也会在研究上投入金钱,物力。而在不断涌现的科技进步中,我认为有三点特别重要,分别是超大规模的计算能力、无处不在的大数据、机器学习,尤其是深度学习算法和理论的发展,即将催生一种人工智能能力。

结果是科技产业比以往更离不开研究。科技产业对研究的投入比以往任何时候都大。这到底是什么情况,为什么会出现这种情况?这就是我今天演讲的主题。

计算对我们生活的影响正在迅速增长。它也发生得很自然,有时我们甚至没有注意到。

上面这张图,这位女士正带着一台小型计算机Microsoft Band,上面有十几台传感器。在她运动的过程中,这些传感器在测量她的心率、跟踪她的路线等等……海量的数据由此产生。

而当这台设备与她的手机等其他设备进行同步,在云端可能有更多设备在为她服务,这就是云计算。

云计算的能力包括核心CPU、内存、存储和网络,通常位于大型数据中心,这些数据中心基本上是包含大量计算设备的大型建筑,具有高度优化和精心管理的电源和冷却功能。

微软在世界各地拥有超过110个数据中心,我们的客户对我们的数据中心的使用正以每年一倍的速度增长。我们每个月都要向我们的数据中心添加更多计算机。这是我们一个数据中心的航拍照片:

涉及到数据中心这种大规模的工程背后还有许多棘手的科学问题有待解决,网络、分布式计算、容错、资源分配和调度,以及一系列基本算法问题等。所以,实现超大规模的计算能力是微软等顶尖公司的研究目标。

摩尔定律如今正在接近一些物理的限制,若要保持这一部分的增长,就必须为数据中心找到新的增长方法来提高计算能力。

今天,在微软的数据中心,我们正在部署基于现场可编程门阵列FPGA的新处理元件,以期实现人工智能超级计算机的计算需求。

此外,我们还在努力研究如何以环境可持续的方式驱动数据中心。

我们做了一些有趣的早期试验。

刘铁岩博士:Peter提到,为了推动计算机行业的持续高速发展,不仅要从事软件研究,也要反思硬件的局限性,发明更新型的硬件体系结构。这几年,微软在硬件方面的投入很多,包括用FPGA武装云计算的数据中心。FPGA是一种非常灵活的低功耗硬件,可以适应丰富的计算需求。我们研究院最近做了很多关于如何利用FPGA来加速深度学习的工作,让硬件的研究和人工智能研究无缝接轨。

数据中心的维护费用耗资巨大,如何降低服务器降温过程中的能耗问题十分关键。微软研究院的Project Natick项目创新地把数据中心置入大海,利用寒冷的海水冷却服务器,并用海浪为之提供电能,还可能减少近海大城市数据传输的延迟。

除了云计算之外,大数据和算法的进步也格外重要。特别是机器学习算法对人工智能的推动作用。

微软水下数据中心

【延伸阅读】:海洋深处的“云”

这张图我们显示了机器学习的简化流程图。机器学习的一个应用方向是赋予机器理解人类语言的能力。我们搜集了大量音频数据及对应的文本数据作为训练数据,输入到机器学习算法中。该算法将“学习”训练数据中的模式,并从中创建称为“模型“的新算法,最终将该算法投入语音作为输入的系统中实用,并输出对应的语音翻译。

目前,这一技术已经成功应用在了微软实时语音翻译Skype Translator上了,目前已支持8种语言的实时语音翻译和50种语言的文本翻译。

刘铁岩博士:利用深度学习技术,微软研究院最近在语音识别上有了新的突破,识别了已经超过了人类的水平。而且也在积极推动这项技术的产业化。

“神经语音识别+神经机器翻译”是Skype Translator背后的秘密武器。我们亚洲研究院的自然语言处理组在神经机器翻译方面做了非常前沿的工作,也把翻译的范围拓展到了包括粤语在内的相对小的语种之中。我所在的机器学习组最近也在关注神经机器翻译,我们在今年的NIPS上发表了一篇通过增强学习(reinforcement learning)技术、从无标签数据中自动获得翻译能力的论文,它利用了机器翻译的对偶结构,取得了非常好的翻译精度。我们把这项技术成为Dual learning(对偶学习)。有兴趣的同学们可以关注一下。

【延伸阅读】微软对话语音识别技术达至人类专业水平,开启人工智能新征程

刘铁岩博士:现场在放一个视频,关于Skype Translator如何帮助有听力障碍的孩子进行交流。当Skype Translator把世界两端、从前几乎无法交流的人实时链接在一起、进行几乎无缝的交谈时,确实有一种科幻小说的即视感。

Skype Translator来啦

英语里有一个单词Serendipity,意思是偶然发生的快乐事件。这对于研究来说是时常发生的。当你开始研究一些东西,最终很有可能得到一些意想不到的精彩,这意味着我们需要对意想不到的事件保持开放心态。

刘铁岩博士:Peter在展示使用微软的WordFlow技术,如何在手机上仅用十几秒钟,输入一段非常复杂的文字。

机器学习也正在为计算机赋予“看”的能力。只需要访问https://www.captionbot.ai/ 上传照片,我们的系统就能“看到”并向你“解释”看到了什么。

微软在计算机视觉方面有着非常领先的技术。大家应该都知道获得去年ImageNet比赛5项冠军的ResNet吧?今年我们研究院的小伙伴再接再厉,又取得了COCO比赛中物体分割的冠军。

机器学习也给予计算机“看”的能力。

深度神经网络的进步越来越大,加上越来越多的训练数据和更好和更好的算法,让机器有能力“理解”一张照片。

这意味着我们越来越好。

大家可以从这些图像看到物体锁定和识别的能力有多大。

如果你想试用我们的计算机视觉DNN,只要拿起你的智能手机,去captionbot.ai,就可以用您的相机,让我们的系统“看到”和“解释”您正在看的是什么……

对许多人来说,言语和视觉是非常有趣的,因为它们是人类可以做的事情。但我认为机器学习和AI会为我们做的很多事情将更加“隐形”。

举例:这是一个演示视频,我们称为“全息传输”。你在这张图片中看到的是我们一位前研究者,叫Shahram Izadi。围绕他的是几个特殊的用于捕获3D图像的相机。来自这8个摄像机的3D信息是一大份数据,大约每秒2G规模,为在互联网上做到实时传输数据,我们必须做大比例的数据压缩。如果这能做到,就可以创造惊人的体验。

刘铁岩博士:现在,Peter通过视频向大家展示了HoloLens的“全息传输”技术,这也是机器学习能力的另一个体现。视频在此:

实时虚拟3D传送

刘铁岩博士:最后,Peter Lee博士向现场在座的大学生分享了一些想法,指导大家如何参与到人工智能的大潮中。最重要的是努力学习。微软也为大家提供了Microsoft Cognitive Services(微软认知服务)和Microsoft Cognitive Toolkit(微软认知工具包),这是用于人工智能非常强大的工具。这种有趣的人脸识别应用就是基于微软认知服务开发的:http://how-old.net/

【延伸阅读】微软认知服务:人工智能的技术拼图

Microsoft Cognitive Toolkit (微软认知工具包)链接:

https://www.microsoft.com/en-us/research/product/cognitive-toolkit/

最后,我想说说今天的研究对这世界是多么重要。

人类历史上有过一个相似的时代:大约在1450年,约翰内斯·古登堡印了一本圣经,后来称为古登堡圣经。当时,全欧洲大约有30000本书,外加一台活字印刷机。

但随着活字印刷机日益普及,50多年后,出现了超过1200万册书籍和1000多台活字印刷机。

这实际上是一个中世纪的摩尔定律。

你会看到,活字印刷机就是最终普及图书、从而普及知识的强大力量。

今天,我们从不断提升的计算能力看到了与印刷机同样重要、具有颠覆意义并最终能让人类变得更强大的力量。

作为研究人员,我们当然想用这些能力来做伟大的事情。

但作为研究人员,我们也要努力让能量巨大的计算和算法得以普及。

我们必须普及AI。

我们必须共同努力,确保人类和机器可以协同工作。

我们必须让地球上的每一个人、每一个组织变得更强大。

我代表微软每个人保证这就是我们的目标。

谢谢大家。

刘铁岩博士:总结一下,Peter在演讲里提到了推动人工智能研究和产业发展的三个重要因素:超大规模的计算能力、无处不在的大数据、机器学习尤其是深度学习算法和理论的发展。可以说,我们这一代研究人员站在了一个难得的历史机遇面前,希望我们能够借力于这些因素,把人工智能推向一个新的高度。

展望人工智能进一步的发展,其实还有很长的路要走。有很多高级的人工智能问题,包括语义理解、无监督学习,都不是简单地使用更多计算资源、从更大的数据中学习更复杂的深度神经网络,就能解决的。这些应用呼唤着新的创新破土而出。 我们研究院最近有几个工作,正是沿着这样的研究思路开展。比如我们刚刚发表在NIPS上的Dual Learning方法,就是利用AI任务之间的内在关系为无监督数据创造有效的反馈闭环,从而实现有效的学习;另外一篇同样发表在NIPS上的LightRNN算法,就是要告诉大家有时精巧的算法设计可能会带来比蛮力并行训练更大的收益。我们最近在整理一套轻量级的快速有效的机器学习算法,其中包括去年发表的LightLDA算法,今年发表的LightRNN和LightGBM等,这些算法都会陆续开源到微软机器学习工具包DMTK里,欢迎大家试用,也欢迎大家加入到四两拨千斤的人工智能研发中来。