分享到微博 分享到人人 分享到LinkedIn 分享到Email
The Pipeline from Computing Research to Surprising Inventions

第十六届“二十一世纪的计算”学术研讨会 微软全球资深副总裁Peter Lee博士主题演讲

非常荣幸今天有此机会,在微软亚洲研究院和北京大学共同主办的大会上,与这么多来自著名的北京大学以及其他高校机构的杰出学者、优秀师生面对面交流,在此演讲我感到非常荣幸。

很难想象能够在这样一个巨大的屏幕前来做演讲,这是我见过最大的阵势了。针对“计算人生”这个话题,我想结合我对“计算人生”的理解和我微软研究院所做的研究谈谈看法,同时也希望和大家一起探讨一些问题,比如科学研究和21世纪的生活究竟有什么样的关系?人们的生活又如何影响到我们的研究?在今天的分享之后,也希望同学们在今后的学习工作中,能够对科学研究保持更加强烈的兴趣。

其实研究真的是一件非常神奇的事情,它是一种探索和发现。在计算领域进行探索时,创造出新的技术是一件奇妙的事情,这不仅有助于继续深入探索,还能创造价值、改善人类的生活。

我这次是从美国华盛顿州来的,来之前刚好在报纸上读到关于中国登月计划的内容。在我看来,中国踏上了一段伟大的探索与发现之旅,面对如此未知的新世界,以及过程中所需的大量新技术,这些奇妙的探索过程使我遐想连篇。

回顾我的儿童时代,一个非常重要的时刻就是见证人类第一次登月,当时我只有9岁。这是一张非常著名的照片,美国宇航员阿姆斯特朗在1969年登上了月球。当时的我还是个孩子,却被深深吸引住了。人类将力量、智慧和勇气结合在一起,要共同让一个人去登月。虽然当时我是个孩子,但看到这样一个宏大的登月项目时,受到了很大的鼓舞,让我有了成为科学家、工程师的愿望。这一点,我是后来才真正意识到的。

同样在1969年,还有另外一个重大的技术和科学的进展,就是互联网最早原形的诞生,也就是“因特网”的前身。1969年, Doug Engelbart展示了一项类似因特网的技术,两个人即便不在同一地理位置,仍然可以通过共建文件或程序来进行协作。他讲解到怎么样使用技术,与人的感觉结合起来,以便实现协作式的探索和工作。

这两个重大的事件是在1969年同时发生的,那么,回顾过去45年,究竟哪一件的影响力更大呢?可能这个问题会显得有一点愚蠢。事实上,像我之前说的,人类登陆月球激励了我成为一个研究者,另一方面,当然,由登月技术也衍生了大量的技术。当我们思考这两个事件时,我们能看到计算机技术有种巨大的力量,当你手里有非常强大的技术工具时,就可以为所有人创造一段全新的旅程。所以在过去45年当中,我们看到计算机科学研究带来技术的不断创新。从这个角度来说,我认为计算机科学研究是一个特别重要并且非常值得期待的领域。

下面,我们来谈谈计算机科学研究,谈谈微软研究院,尤其是微软亚洲研究院所做的重要的工作,主要就是计算与人生之间的联系。也许在座的人都没有看过这张图片,这是电影《星际迷航》系列中的一个场景。《星际迷航》里讲到一些宇航员去探索25世纪的外星球,在宇宙当中到处去探索、发现,见到不同的新的外形文明,然后去理解这个宇宙是怎样运行。这张图片里,这些船员在看一部叫《回家之旅》的电影时,预见到了一种未来可能毁灭整个地球的威胁,为了能够拯救地球,他们不断探索和研究。他们发现,唯一的拯救之道就是穿梭时空,回到(我们)今天的世界,找到解码未来威胁的钥匙。

就这样,他们在宇宙当中找到了一个虫洞,通过它回到了过去的时光,也就是今天的地球。要做的第一件事情,就是找到一台计算机,于是工程师跑到一间办公室,开始对计算机说话。大家可以想象,在21世纪的时候,计算机应该已经能够实现人机之间进行自然的互动了。在这个场景中,他对着计算机说完话之后,计算机什么都没回复,他就接着说是的,然后把鼠标拿起来了,对着鼠标说话。事实上,这是一个很滑稽的场景,为什么?因为我们实际上都有过这样一些过程,就是我们做了一些不自然的事情,让计算机和我们进行互动。现在,我们在计算科学领域中要探索的是,让这个人机交互的过程变得更加自然,也就是如何让计算机理解自然语言,如何让它理解人类。

相信今天很多人都有智能手机、平板电脑,或者是笔记本电脑,大家知道很多应用都可以让自己和计算机进行对话,实际上,在自然语言识别领域,我们已经取得显著的进步了,而这些进步很大程度上都基于机器学习能力的不断改进。机器学习,简单来说就是让机器不断地累积经验,不断地改进数据。在今天的时代里,我们拥有大量的数据,机器学习也就变得越来越重要。那么,什么是机器学习?机器学习在初始阶段是非常具有实用性的,主要是用在文字识别领域。最早人们非常希望机器能够阅读信封,从而帮助投递信件。比如信封上有“2”这个数字,我们就希望机器能识别出这是“2”。在当时,让机器阅读文字是非常困难的,因为它需要非常复杂的编程,需要各种各样的识别规则。最主要的问题在于,编写这样的程序需要考虑人们写文字时各种各样的写法。因此,程序中就需要大量的规则,可是这些规则互相之间可能很快就会有矛盾,就导致了这种程序的脆弱性。所以,最开始使用机器识别文字的技术时,出现了很多的错误。

因此在计算科学领域,我们渐渐发展出关于机器学习的一种新概念,它不是设计一个程序来识别人们所有的书写模式,而是通过收集很多的书写数据,把它进行整合、标签化,这样就能知道写下来的每个数字到底是什么数字,相当于一个标签训练系统(label training system)。接着,机器学习的程序会把这些数据放进去,有时甚至会有几百万条,它会自动地学习怎么识别这些数据,最后自动生成能够将数字进行准确分类的程序系统。过去25年,在机器学习方面我们已经取得了巨大的进展。

实际上, 在全世界范围内,机器学习已经越来越重要,不仅在计算科学的研究领域,更在计算生活发挥着重要作用。我们看一下这个视频,这是微软研究院的大楼,当有人来到电梯口时,电梯就会自动打开,因为摄像头能看到人的动作。几个月以来,这个机器学习系统会观察大厅里走来走去的人们,每次有人按电梯的时候,它就学会了这个人的行为。大概十周的学习和观察之后,这个系统一旦开启,就会提前为你按楼层,在这个视频里可以清楚的看到,电梯系统能够理解每一个人的想法,带你去想去的楼层。这些过程都不需要编程,都是系统通过机器学习自己来学习的,这是一项不可思议的科技进步。

机器学习无处不在。接下来,回到我们前面谈到的计算机对人类语言的理解,实际上,机器学习也在这方面做出了巨大贡献。我们可以把大量的演讲录音作为训练数据,对它们进行标签化,进行转录,再把数据全部放进一个基于深度神经网络的机器学习的系统当中,最终这个语言识别系统就能产出比较准确的译文。

通过这张图,可以看到我们在语言识别方面机器学习所取得的进展。这张图的Y轴表示的词语错误率,指的是语音识别系统产生的文本的错误率。1993年时,语音识别的效果非常差,当时候基本上错误率是百分之百,经过多年的研究,现在我们在实验室的环境里,错误率能够下降到10%以下。

大家想一想,如果要把我今天的演讲全部写成文本,各位问问自己,能够保证错误率在10%以下吗?实际上,目前机器学习在错误率方面的进步是非常惊人的。现在,微软已经将机器学习的语音系统进行了广泛应用,比如说Windows Phone和必应Bing都有语音搜索,还有Xbox系统,人们可以和它们进行对话,通话的时候用的就是语音识别技术。这个系统商业化之后,对我们的生活也产生了巨大的影响,机器能够越来越好地了解人们说话的内容了。

我还是想回到关于词语错误率这一页,想说一下关于研究的问题。1993年的时候错误率是非常高的,然后随着机器学习不断地被应用,大约到2000年时错误率已经降到了26%。大家可以想象一下,对于研究人员来说真的是很有动力的,因为在计算机研究领域,尤其是语音识别这个领域,大家每年可以看到巨大的进展。

但在2000年之后,有十多年的时间几乎并没有实质性进展。试想作为一个研究员,你每一天有一些新的想法,新的算法,并且对于人类语音有着更深入的了解,每天都和你的同事进行交流,并且学到了新东西。但是从实际应用的角度来说,这个新的机器学习,语音识别的效果并没有改善。这里我想说的是,研究通常是一个长期的活动,研究者需要有创造力,也需要有毅力,需要坚持,需要追求真理,需要深入了解知识。所以,如果一旦有了足够的积累,总有一天,我们能够达到突破性的转折点。正如大家可以看到,在2009年的时候我们就出乎意料地取得了重大突破。我在微软研究院所做的一项重要工作,就是鼓励人们从长远的角度来关注并坚持自己的研究想法,要想让机器理解人,确实是需要时间和耐心的。

再回到刚才这张《星际迷航》的图片,关于这部电影,大家可能有些事情并不是特别清楚,宇航员们不仅仅可以和计算机通话,还可以穿越宇宙,去见任何星球上的外星人。通过宇宙翻译器的技术,他们可以和任何的文明、或是外星人进行沟通,他们在飞船中的这个系统可以将自己的语言翻译成任何一种外星人的语言,简直太惊人了。

我们可以想一下,这样的一个宇宙翻译器是否真的可能存在。我觉得是有可能性的,大家也知道,通过机器学习我们的确在翻译方面取得了巨大的进展。那么,是否可以将语音识别技术纳入到自动翻译的过程中来?随着机器学习不断发展,机器可以将书写的文字转化成语音,过去几年微软研究院一直在做这个领域的研究,实际上其中很多研究都是在北京的微软亚洲研究院做的。两年前,也是在二十一世纪的计算大会上,微软研究院的创始人Rick Rashid演讲的时候,有一部分是用中文传达给观众的,但是演讲者实际上说的是英文,计算机系统已经能够自动地将英文翻成普通话,并用正确的语音语调说出来,这简直是太奇妙了。两年前,我正好也在现场,能见证这样一个历史性的时刻,我感到非常兴奋。

今天我可以给大家看一个视频。翻译里出现的一些小错误并不是特别严重,这是一个非常有意思的体验。因为我不会说中文,也听不懂中文,我本人并不知道具体翻译得怎么样,但是可以明显看到的是,视频当中语音的延迟性非常低,响应速度非常快,几乎是一种无缝的体验,这种技术进步确实令人吃惊。

我们在思考关于不同的研究模式,首先,是否可能用机器学习来提升计算机的性能,让它更好地理解人类语言,是否可能用机器学习来改善计算机本身,让它在聆听人们说话时显得更有经验。这就是我们长期的基础科研(blue sky research)在做的事情,来解决这个相对困难的问题。这种研究纯粹是出于好奇,不断探索与发现,是一种开放式的技术研究。接着是颠覆式的研究(disruptive research),这种研究可能会让人感觉到比较惊讶,用计算机技术怎么能做出这样的事情,这种短期的技术突破将长期的基础科研中产生的知识加以应用,创造出更好的计算生活。

通过基础科研与技术突破,我们尝试将研究成果进行广泛应用。我们希望为每一个人创造出可以使用的工具,就是我认为的“目标驱动的研究”(mission-focused research)。在微软,我们是有这样一个梦想的。我不知道你们当中有多少人使用Skype,它对于微软来说是非常重要的,这是我们最重要的产品之一。对于我本人来说,Skype是一个借助通信网络来连接全球的工具,让我们能够通过互联网便捷地与外界联系。

那么,我们是否能够利用像Skype这样的工具,并且将其扩展来应用到语言翻译当中呢。我们梦想未来Skype可以作为一个窗口,将各个语言之间的壁垒打破。目前在微软研究院,尤其是在微软亚洲研究院和雷德蒙总部研究院,有很多与这个领域相关的研究。一个月之后,我们会有一个公开测试版的Skype Translator技术。

跟大家坦白地说,对于这个项目,我们实际上也有一点恐惧,真的发布之后会有什么效果,我们也不知道,但是我们非常兴奋,因为像这种目标驱动的研究确实能带来很大的、实质性的进展。

大家可能觉得创造一些东西,比如说Skype翻译,只是产品开发和软件工程的问题。但实际上,当你想把这个东西真正做出来,一些新的、基础性的研究问题就会出现,当然一些新想法、新机会也会出现。在做Skype翻译的时候,我们确实遇到了这样的问题。因为Skype首先是一个分布式的系统,有成千上万的用户,现在它的通话时间几乎已经达到了上万亿分钟,作为一个全球化的系统,每个月的通话规模非常大。这种分布式的系统对于语音识别、机器学习和文字处理带来了巨大的挑战,但确实也非常令人兴奋,因为我们每天都不断学习到大规模分布系统的新知识。

在刚才的演示中,大家可以看到我演讲的语音被翻译成了中文。实际上,我的演讲是非常正式的。但如果大家在Skype上说话,可能并没有那么正式,有些人可能会是这样,“我觉得…可能…应该是值得的”,但是他最直接的方式,用最简单的话说应该是“是,我觉得这样做是值得的”。所以要想正确地理解语言,比如要把它翻译成德文,很明显是不一样的。所以Skype翻译系统应当了解人们是怎么说话的,到底里面哪些是有用的,哪些是没用的,到时候可以进行整理。这里不仅仅涉及到机器学习,还涉及到人类心理学和意识的问题,包括人机互动的问题,这些也非常重要。有些人可能会说西班牙语,说得本身就很差了,机器不知道什么意思。就是比较好的西班牙语,关于“no”也可能出现问题。所以试想,在Skype上或者是电话上,跟人说话的时候包括重音和语音语调是有差别的,比如在这里他想说的是你有个女儿吗,是疑问句。但是如果说错了,就是你有一个女儿,你女儿长得不漂亮,但是实际上人家说的是你是有一个女儿吧,你女儿长得非常漂亮!所以,在我们的研究中还可以进行很多的探索与发现,机会也很多。

另外一个挑战就是不流利现象。人们在说话的时候可能有很多不流利的表达方式,“我的意思是我从来没做过”,“我怎么样怎么样”。作为人类,有的时候在互相理解上是没有问题的,但是像这样一种语言的填充词,这种重复,这种语言修正,对于机器翻译来说确实是问题。所以在做Skype的翻译系统的时候,需要一种新的科学方法来解决这些不流利现象。比如说,我们现在就在对不流利的现象进行分类和分割,以便确定它的意义,或者是没有意义。先把那些不流利的现象去除,再翻译成汉语、德语或者是其他的语言,我们在这个过程中学到了很多很多。

我们面临一个巨大的机会,但也同时在进行长期的基础性研究,在这个领域有很多的发展潜力。即便在Skype Translator测试版发布之后,我们还要思考进一步地怎么样让机器更好地理解人类语言和自然语言。在微软亚洲研究院有一个非常大的进步,就是小冰,大家很多人可能不知道小冰是一个人还是只是一个机器。实际上小冰是一个人工智能系统,它是能够很好地理解人类之间的语言的对话的。而且小冰为我们创造了一个非常神奇的经历,今年5月底发布的头三天,就已经有一千万的使用者了,自此以后,我们就观察到人们平均每个月会有1122个对话,这让我感到非常欣喜。

最近我们刚刚决定让微软小冰担任品牌代言人,这说明机器学习已经达到了一个新的发展阶段。而且,我们可以把机器学习用一种新的形式呈现出来,尤其是在中国的移动互联网中。

当我们在看这些类型的研究时,从长期的基础研究开始,包括机器学习的研究,对于语言过程的研究,最终成为了颠覆式的技术,实现语言与语言之间的翻译,也就是微软研究院以使命为驱动的研究项目之一。就是把一些具体的任务变成一种工具和技术,消除人们之间交流的障碍,最后推出一些新的应用,给人们带来新的体验。对我来说,这使得我们看到了从长期的基础研究到创新科技成果之间的一条管道,基础性的研究逐渐地过渡到这种令人欣喜的发现中。在微软研究院,如果我们对不同类型的研究进行资源分配,可以想象这样一个象限,X轴左边是短期,右边是长期,在Y轴的上面是开放式的(open-ended),下面是实践驱动的(reactive),实践驱动就是要帮助人们解决某个问题,开放式的则是纯粹由好奇心驱动的研究。微软研究院的管理就可以分成这四个象限,从长期的基础研究到源源不断的科技创新之间的一条管道,这个象限很清楚地表达了我们的态度。在微软亚洲研究院,令人高兴的是,四种类型的研究都在进行,这使我们的管道非常完整,而且使我们对未来充满着信心,期待进一步的创新。

讲到这里,我衷心希望大家已经有一点点的感受到计算科学和人生之间的关系,以及它们怎么样结合到一起,以研究的形式体现出来。非常感谢大家的聆听。我感到非常荣幸。谢谢!

演讲嘉宾

  • Peter Lee
    微软全球资深副总裁
    美国计算机协会(ACM)院士

相关链接