分享到微博 分享到人人 分享到LinkedIn 分享到Email
分析、方法、实验三步曲

信息与知识管理大会(CIKM,Conference on Information and Knowledge Management)是美国计算机学会(ACM)举办的一项国际顶级学术会议。自1992年成功举办以来,已经成为知识荟萃和学术分享的熔炉,吸引了数据库、信息挖掘、知识管理领域的世界顶级专家倾情奉献自己的才智。

2009年,微软亚洲研究院实习生耿博,获得了此次大会最佳学生论文奖的殊荣。让我们来看看他在这篇“平白如水”文章中道出的获奖心得。所谓“平白”,在于得奖之后的从容淡定,也在于解释“高深”的研究之时,那一份老妪能解的深入浅出。

2009年10月28日,我收到了2009年CIKM组委会的通知,说我获得了该会议的最佳学生论文(Ranking model adaptation for domain-specific search)。这个消息让我喜出望外。在反复阅读那封电子邮件,并被越来越多的朋友围观和祝贺后,我才说服自己承认它的真实性。2009年CIKM共收到了847篇长文,其中123篇被录取为口头报告,接受率仅为14.5%。最佳学生论文是从信息检索,知识管理,数据库三个研究方向所有论文中评选出的最优秀学生论文。这篇论文是我在微软亚洲研究院多媒体计算组实习期间完成的,回忆那段时间的各种经历,依然感慨良多。

传统方法的调研和分析

——舍方寸之惑 ,得苍穹之大;舍举目之求,得天地之志

CIKM2009最佳学生论文奖得主——耿博

我目前的研究方向主要为图像搜索中的排序,即如何改善图像视频搜索引擎中的排序算法,让用户最想需要的图像排在返回结果的前面,不相关的排在后面。然而,由于计算机视觉发展的局限性,当前的技术还很难对任意一幅图像进行有效的内容分析和理解。或者简单的讲,我们很难让计算机自动而准确的去判断一张图片中是否包我们最需要的信息,比如是否含有汽车、飞机,是否有人在跑步、在踢球,是否包含奥巴马,乔丹等等。

当前计算机视觉的一个研究热点就是先标注一部分数据,然后通过“机器学习”的方法,来学习图像的底层特征和这些高层概念之间的关系,进而利用这样的关系来预测一幅图片包含某个高层概念的概率,最后根据概率对图片进行排序。也就是说,例如我想搜索一个跑步的小男孩,我们首先人工标注一些包含小男孩跑步的图片和不包含的图片,然后训练一个检测器来预测任意给定的图像中包含“小男孩跑步”的概率,进而帮我们找到包含搜索目标的图像。

然而,这种方法严重受限于图像底层特征(例如颜色,纹理,形状等)与高层概念之间的“语义鸿沟”,目前依然很难做到较为准确的检测。并且,我们在图像搜索时会有成千上万种查询关键字,用户可以通过不同的关键字组合来进行查询。然而,我们不可能对每个查询都去学习一个相应的高层概念检测器,因为这样需要耗费大量的人力代价去标注样本,以及大量的计算资源和时间去训练模型。更糟糕的是,由于查询会随着时间和应用场合的不断变化,因此每天都会有新的查询出现,如果对每一个新出现的查询都去标注大量的数据并构建相应的检测器,标注和训练代价巨大,因而这种方法的可扩展性也很差。

鉴于以上各个问题,目前实用的网络图像搜索引擎都是采用图像的文本信息。也就是说,利用图像的标题、环绕图像的文字,以及所在的网页的文本信息来进行索引和检索,而并不考虑图像的内容信息。在这种方法下,一幅图像通常可以理解为一篇由以上文本信息组合而成的文档,因而经典的信息检索的方法就可以对图像进行有效搜索。这种方法简单高效,且可扩展性强,在实用中其返回结果也更被人们接受。因此,尽管目前大量的研究热点依然集中在图像内容分析对于图像搜索排序的应用,我们从实用性的角度出发,暂时放弃图像内容信息的使用,转向以文本信息为基础,来提高图像搜索排序模型的性能。

问题的抽象和思考

——若言琴上有琴声, 放在匣中何不鸣? 若言声在指头上, 何不于君指上听?

本次研究的灵感来源于我之前从事的“迁移学习(transfer learning)”领域的研究。所谓“迁移”是指将不同分布、不同数据域的数据或者模型结合起来,来在目标数据域中训练更为鲁棒的模型。这篇文章解决的问题,实际上属于迁移学习的范畴。由于在学习模型参数的过程中,训练与测试数据的分布不完全相同,从而导致在训练集上得到的最优模型在测试集上效果不佳。而网页和文档搜索的数据与图像搜索数据分布不尽相同,如果直接将网页搜索模型“拿来”应用在图像搜索中,无法得到满意的搜索排序结果。具体来讲,搜网页的时候,题目非常重要,但对于图像,图像周围的文字或标签可能更加重要。但是,这些不同域的数据又具有一定相关性。目前网页与图像都是用文本进行搜索的,它们既类似,又有不同的侧重点。利用这些已有的模型信息,我们可以针对一个未知的域,结合域中的标注数据来训练适合该域的模型。此时,由于已有的排序模型提供了先验信息,只要标注很少的一部分信息,经过对已有模型的迁移到未知的域,就可以新的域以最小的标注量,构建起性能良好的模型。

从统计角度讲,训练的数据越多,模型就会越好。但是,训练越多,需要的人工标注量和时间也就越大。我们的方法利用已经有的模型,减少了标注量和训练时间。这个方法实现了几个特点:

(1)基于模型的迁移,即我们只需要辅助域的模型,而不需要它的相关数据。我们只需要看到已有的排序模型的相关信息,而不需要训练那些已有排序模型的任何数据;

(2)基于黑盒的迁移,只需要知道输出,我们不需要知道它是如何运转的,把它当作“黑盒”,降低了对已有模型的依赖性;

(3)减少了目标域数据的标注量,这样人工的成本就有所减少。即在同样标注量的情况下,我们的算法能够达到更优的排序性能;

(4)减少了模型训练代价,证明这个方法训练需要的时间减少了,数据量少了,需要的时间也减少了。即我们的算法的训练时间复杂度只与目标域已标注的数据量有关,而在域迁移中这个数据规模相对较小。这些优良的特性使得我们的算法一方面对已有排序模型的训练数据以及已有模型本身的细节不需要过于苛刻的要求,另一方面减少了对于目标域数据的标注和训练代价,从而使得我们的方法更为简单鲁棒有效。

平白如水的一点感言

思路理定,在实验过程中,我们从网上抓取了接近百万个网页和图像数据,并抽取了大量不同的特征进行深入分析。我们通过将一个已经训练好的网页搜索排序模型迁移到图像域中进行图像搜索排序,发现我们的算法能在只有少量的图像标注数据的情况下,较大程度地提高图像搜索结果的排序性能。另外,对于不同的已有模型,我们提出可迁移性度量来估计不同的已有排序模型的有用性,并证明具有较大可迁移性的排序模型通过迁移后能得到更好的排序结果。这个可迁移性标准能够很好的对已有排序模型进行有效选择。

有充分的思考和扎实的实验过程作基础,在CIKM的评审过程中,评委们对于我们的方法给予了高度的肯定。三位评委中有两位打出了满分,并称赞我们的想法新颖,算法简单有效,实验翔实充分。如评委所说,这篇文章的成功主要在于对于目标问题的背景和其中的内在矛盾进行了抽象和深入分析,提出了简单而行之有效的方法,并进行了细致翔实的实验。这些原因也许听来平白如水,妇孺皆知,没有任何神秘的色彩,然而一篇论文的成功却恰恰源于此,并且缺一不可。

回想写论文的过程,杨林军和华先胜老师陪我一路走来,悉心指导,真的令我精进不少。从2008年12月有这个想法开始,一直到2009年4月,我们经常碰面都会进行讨论。通过近半年的夜以继日,终于让论文成形并投向CIKM。

若问其它感想,写完论文有人补觉、有人狂欢。于我来说,一篇文章的完结,似乎并没有与特别的感情相联系,似乎没有如释重负的格外轻松,交完论文,略带感激并充实地笑一笑,然后就洗洗睡下。生活只是一步一步向前走,只是做着手头的事情,只是一篇文章结束之后再解决新的问题,写出新的文章。科研如是而已,此之谓“平白如水”吧。

———————————————————————————————————————————————————

作者简介:

耿博,微软亚洲研究院多媒体计算组实习生,现于北京大学智能科学系视觉组攻读博士学位,本科毕业于复旦大学计算机科学与技术系。曾获得2009年CIKM最佳学生论文奖,以及2010年北京大学石青云院士优秀论文奖。