分享到微博 分享到人人 分享到LinkedIn 分享到Email
基础研究是创新的核心

——第十七届“二十一世纪的计算”学术研讨会

微软全球资深副总裁Peter Lee博士的主题演讲​​



2015年10月28日,北京新清华学堂

Windows 10发布当天,微软CEO Satya Nadella并不在微软总部,而是在肯尼亚。他为什么会出现在那里?原因则是为了微软的一项创新技术——TV WhiteSpace,利用电视的空白频段传送无线电波,低成本地提供长距离高带宽的无线传输服务。我们希望利用该技术去改善当地教育、改善当地数百万人的信息获取问题。

其实在微软,有很多像这样的基础研究项目,它们通常耗时多年才会开花结果,大家并不能一下子就用上我们的这些研究成果,但微软还是坚持做研究,为什么?因为基础研究是技术创新的核心,并不断推动着创新的发展。

以前,政府和高校为大部分基础研究提供了大量的资金及资源支持。但在全新的环境下,越来越多的企业看到了基础研究的重要性,并设立了相应的实验室或研究机构。虽然有些产品未必能在短期内获得成功,不过大家都相信研究能够带来长期的技术发展与源源不断的创新,尤其在人工智能和机器学习领域,基础研究可能是新一轮工业革命的驱动力。

如今,我们已经可以看到机器学习在基础研究的推动下有了越来越多的应用场景。比如,我们近期推出的一个多人参与的电子游戏——光晕5(Halo 5),通过机器学习技术,它会观察用户在游戏中的习惯,然后把那些有相同习惯的人联系在一起,让用户更加喜欢、适应这个游戏。再比如,Microsoft Band(微软手环)利用机器学习监控用户的心跳、热量等,帮助人们提前预防疾病。而对于一些企业,我们用机器学习来学习公司内部的邮件、会议日程,以及相关信息,从而让员工发挥优势做合适的工作。如此等等,机器学习广泛的应用前景将带动人工智能的进一步发展。

但现在那些看起来极具颠覆性的产品或应用,其背后的技术都经历了几十年基础研究的积累,计算机视觉如此、语音识别如此、机器学习如此、各类技术与资源的集大成者——人工智能更是如此,其中基础研究的重要性不言而喻。

以语音识别为例,其识别错误率在1993年、2000年、2010年分别为100%、26%和7%,每一次进展都等待了数年甚至更久。正是因为2010年深层神经网络技术的应用给语音识别所带来的巨大突破,才促成了我们在2012年的第十四届 “二十一世纪的计算”大会上对实时语音翻译技术的首次公开展示。从当时现场观众雷动的掌声和激动的神情中,我们读到的是“Magic“。就在今年9月份 ,Windows Skype里面正式嵌入了该实时语音翻译技术——Skype Translator。

未来,我们会让实时语音翻译技术跨越多个平台,并且在语音翻译上做更多的研究,让翻译模型和语音模型可以更好地适应不同的说话方式,无论是工作上的正式交谈还是朋友间的亲密对话。我们的努力不仅仅是为了推出Skype Translator,而是希望构建一个全新的语言处理模型让更多的人可以打破语言障碍有更多的沟通与交流,提高个人和组织的生产力。

从1993年到2012年,我们花了近20年的时间来实现语音识别的基础科研突破。但在有着耗时耗力特点的基础研究旅程中,微软一直持续不断地大量投入,其原因就是——只有长期的投入和耐心才能实现真正持久的创新。而我们坚信基础研究必将奠定下一个时代的大规模创新。

但基础研究并不是呆板的,它还需要一个开放的心态,因为你会从中得到一些意想不到的收获。非计划的研究,有时候会带来颠覆性的理解和创新。这些研究起初可能只是一种有实验性质的小乐趣,但这也是基础研究中非常重要的组成部分。

微软研究院对于如何管理研究进展有一套自己的方式,我们会依照研究的时间安排和其限制性来制定一个坐标(如下图),以此来衡量一个研究项目是需要在一定时间内解决的,还是为了解这个世界所进行的较为开放的探索。

我们会专注于一些具体的任务,然后在此基础上去研究一些颠覆性的技术。这样才可以在满足不同需求的研究任务的同时去发现新的机会,最终向全世界提供更好的产品和创新。但无论在坐标的哪个位置,研究始终都是核心,且永不止步。

有些时候,人们可能会错误地认为已经解决了世界上大部分甚至所有的问题,但实际上很多事情我们仅仅触碰到了皮毛。我们在计算机科学领域的探索如今只是一个开端,未来还有很多可以去做、需要去做,正如微软的使命所期待的:Empower every person and organization on the planet to achieve more,予力全球每一人、每一组织,成就不凡!