分享到微博 分享到人人 分享到LinkedIn 分享到Email
2017年最值得关注的科学概念之“迁移学习”

微软全球资深副总裁 Peter Lee

Edge.org为著名知识分子俱乐部The Reality Club的线上社区,自1996年上线,如今已有20年历史。在其创刊20周年之际,Edge.org也推出了2017年度问题——2017年,最值得关注的科学术语或概念是什么?微软全球资深副总裁Peter Lee博士受邀应答,向大家介绍了迁移学习这一科学术语的前世今生。

迁移学习

“你永远不能理解一种语言——除非你至少理解两种语言”。

任何一个学过第二语言的人,对英国作家杰弗里·威廉斯的这句话应该都会“感同身受”。但为什么这样说呢?其原因在于学习使用外语的过程会不可避免地加深一个人对其母语的理解。事实上,歌德也发现这一理念的强大威力,以至于他不由自主地做出了一个与之类似但更为极端的断言:

“一个不会外语的人对其母语也一无所知”。

这种说法极为有趣,但令人惊讶的是恐怕更在于其实质——对某一项技能或心理机能的学习和精进能够对其他技能或心理机能产生积极影响——这种效应即为迁移学习。它不仅存在于人类智能,对机器智能同样如此。如今,迁移学习已成为机器学习的基础研究领域之一,且具有广泛的实际应用潜力。

今天的机器学习领域主要围绕着能力可随数据及经验的积累而提高的算法,且已取得惊人进步,并由此催生出可比肩甚至超越人类智能的计算系统,例如具有理解、处理及翻译语言能力的系统。近年来,机器学习研究多聚焦在深层神经网络(DNN)——一种通过从大量数据中推断异常复杂模式而进行学习的算法概念。例如,向一台基于DNN的机器输入数千个英文录音片段及其对应文本,机器便可从录音与文字的关联中推断出相关模式。伴随着关联模式的逐渐精确,系统最终将能“理解”英语语音。事实上,今天的DNN已经相当成熟,一台功能强大的计算机在学习充分训练示例后,完全可以对真人对话进行文字速记,并达到比专业速记员更高的准确率。

一些人也许会很惊讶,计算机化的学习系统展现出迁移学习的能力。我们可以通过一项涉及两套机器学习系统的实验来思考这个问题,为了简单起见,我们将它们称为机器A和机器B。机器A使用全新的DNN,机器B则使用已经接受训练并能理解英语的DNN。现在,假设我们用一组完全相同的普通话录音及对应文本来对机器A和B进行训练,大家觉得结果会怎样?令人称奇的是,机器B(曾接受英语训练的机器)展现出比机器A更好的普通话技能,因为它之前接受的英语训练将相关能力迁移到了普通话理解任务中。

不仅如此,这项实验还有另一个令人更为惊叹的结果:机器B不仅普通话能力更高,它的英语理解能力也会提高!看来威廉斯和歌德确实说对了一点——学习第二语言确实能够加深对两种语言的理解,即使机器也不例外

迁移学习的理念至今仍是基础研究的课题之一,因此,许多根本性的问题仍然悬而未决。例如,并非所有的“迁移”都是有用的。要让“迁移”发挥作用,学习任务之间至少需要相互关联,而这种关联方式仍然缺乏精确定义或科学分析,且与其他领域相关概念之间的联系仍有待阐明,如认知科学和学习理论。诚然,对于任何一个计算机科学家而言,从事计算机系统的“拟人化”在理智层面都是危险的,但我们却不得不承认,迁移学习让人类学习和机器学习之间产生了强烈而诱人的相似性;当然,如果通用人工智能真能有朝一日成为现实,迁移学习恐怕将是这一过程中的决定性因素之一。对于善于哲学思考的人来说,迁移学习的正规模型可能会为知识和知识迁移带来新发现和分类方法。

迁移学习同样具有极高的应用潜力。过去,机器学习在搜索和信息检索等领域中的实用价值较为单一,大多聚焦于通过万维网上大量数据集和人物信息进行学习的系统。但我们是否想过,经过网络训练的系统可以了解关于较小社区、组织甚至个人的信息么?未来智能机器可以学习与特定个人或小型组织相关的、高度专业化的任务么?迁移学习让我们可以想象这样一种可能性,让所有网络信息都成为机器学习系统的基础,而系统则可通过迁移学习获得更个性化的信息。实现这个愿景,我们将向人工智能普及化迈出又一大步。