分享到微博 分享到人人 分享到LinkedIn 分享到Email
信息检索盛会 微软“领衔主演”——记ACM SIGIR 2013信息检索国际会议

编者按:ACM SIGIR会议(全称为ACM Special Interest Group on Information Retrieval,国际计算机协会信息检索国际会议)创始于1971年,至今已有40多年历史。2011年,SIGIR曾在北京举行,微软亚洲研究院作为主办方之一参与到会议中。作为信息检索领域最重要的国际学术会议,SIGIR一直以来都是互联网业内关注的焦点。今年,微软亚洲研究院研究员高斌和窦志诚参加了此次会议,并撰文分享了他们精彩的会议经历。

作者:微软亚洲研究院研究员 高斌 窦志诚

2013年,第36届SIGIR会议于7月28日至8月1日在爱尔兰首都都柏林举行,本次会议从336篇候选论文投稿中录用73篇,而其中有12篇来自微软全球研究院和微软产品部门,占录用论文总数的16.4%,充分彰显了微软在信息检索领域的国际领先地位。

本次会议为期五天,按照惯例,第一天是10个教学报告会(tutorial);接着是为期三天的主会(main conference),包括1个专题研讨会(panel)、1个主题演讲(keynote speech)、20个学术报告会(research session)、1个工业技术报告会(track)以及若干演示会(demo)和墙报展示会(poster);最后一天是7个专题讨论会(workshop)。

 

互联网搜索20年

与往年不同,今年的开幕式上没有主题演讲,取而代之的是一个庆祝互联网搜索诞生20年的专题讨论会。早在1993年,Jonathon Fletcher就创建了互联网第一个现代搜索引擎叫做JumpStation,并由此引发了一系列搜索技术的革新和搜索新产品的问世。Jonathon Fletcher也受邀成为此次专题讨论会的嘉宾,此外,受邀嘉宾还有雅虎研究院的Ricardo Baeza-Yates等人。

当然,专题讨论会的主角毫无疑问属于来自微软剑桥研究院的嘉宾Stephen Robertson,为了表彰他在信息检索领域里面的突出贡献,比如他发明了影响深远的BM25,大会为他颁发了一个特殊荣誉奖。在讨论会中,各位嘉宾回顾了互联网搜索的历史,讨论了如何更好的理解用户需求以及如何开发更加易于使用的搜索产品。

主题演讲

此次大会唯一的主题演讲安排在主会第二天上午,来自IBM T.J. Watson实验室的John R. Smith做了题为《在多媒体大数据浪潮之巅(Riding the Multimedia Big Data Wave)》的报告。他介绍了为了提高多媒体(图片和视频)搜索的质量,我们应该如何更好的利用大数据来改进多媒体信息的特征抽取与分类。他分享了IBM构建图片和视频搜索平台的经验,并展示了很多生动的演示系统(demo)。

论文综述

从研究方向看,与前几年的SIGIR会议相比,除了以往的热点方向,如查询理解与推荐、推荐系统、搜索日志分析、排序学习以外,搜索结果评价(evaluation)、社交媒体(social media)、用户行为分析(user behavior)、主题标签(hashtag)成为新的热点。

从研究问题看,排序问题仍然是SIGIR非常关注的热点问题之一,今年有关排序问题的论文不少,但是似乎没有发现让人眼前一亮的新想法,这个方面亟需新的突破。

用户行为分析(user behavior)和信息检索评价(evaluation)问题在今年的SIGIR会议上引起了广泛关注。在全部的20个学术报告会(session) 中,一个集中讨论用户行为,两个集中讨论信息检索评价,两个讨论用户行为和交互式信息检索。而在其他关于排序、检索模型和互联网搜索的报告专题中,也有部分在讨论用户行为和信息检索评价。用户行为分析是信息检索模型建立的基础。一个好的检索模型一定是提高用户体验和用户满意度为目标,而用户在搜索结果上的行为数据,是分析用户体验和用户满意度的重要数据来源。因此如何从这些用户反馈数据中挖掘出有用的信息用于改善搜索质量,是工业界和学术界一直以来都关注的问题。值得一提的是,以前的大部分研究都是针对用户在桌面电脑上(desktop)使用搜索引擎的行为,而微软的Qi Guo研究员首次深入的分析了在可触摸设备上的用户行为数据,并研究了如何基于这些数据改进搜索排序质量。随着智能可触摸设备的飞速发展,这一研究是非常有价值的,相信在这一方向上将会有更多的研究工作出现。

和基于用户行为的排序质量改进类似,基于用户行为分析的信息检索评价近年来也得到了飞速发展。和传统的基于人工标注的信息检索评价方法相比,基于用户行为分析的评价方法更能够体现和评测真实用户体验。在此次会议上,学术界的关注度从传统的结果排序评价扩展到了页面上的其他信息,如搜索结果摘要(snippet)和查询建议(query suggestion)的评价。值得关注的是,目前的商业搜索引擎在搜索结果中增加了越来越多的信息。比如对于查询词“微软”,除匹配的的网页结果外,微软必应搜索引擎还在结果页面显示了相关新闻、微软客服电话以及微软的股票信息。整个搜索结果页面上的信息(而不仅仅是相关网页结果)是否真正满足用户需求,提高用户体验,是目前信息检索评价领域越来越关心的问题。在此次大会上,也出现了一系列相关研究工作。

从研究的方法看,除了近些年比较受重视的机器学习、众包策略、交互学习、社交媒体等方法以外,大数据在信息检索领域的作用显得更加突出。然而,目前在语音识别、图片分类等领域大放异彩的深度学习在本次会议的各种讲座上很少被提及,我们猜测这与深度学习在自然语言处理、文本处理、排序问题上的表现尚无显著提升有一定关系。据我们所知,有很多研究者正在进行这方面的很多尝试,期望在不久的将来我们能看到一些令人耳目一新的成果。

最佳论文奖与最佳学生论文奖

今年SIGIR的最佳论文(Best Paper Award)题为《互联网搜索中的信仰与偏见(Beliefs and Biases in Web Search)》,作者是来自微软雷蒙德研究院的Ryen White,这也是他第三次获得SIGIR的最佳论文奖(注:前两次分别是2007年和2010年,我们猜想2016年会不会还是他?)。这篇文章通过对一系列问卷调查、搜索结果的人工标注以及大规模搜索日志信息的综合分析,探索了预想偏向性(pre-conceived biases)对健康领域搜索的影响。

今年的最佳学生论文奖(Best Student Paper Award)题为《从全程关联探究网络搜索中的固有多样性(Toward Whole-Session Relevance: Exploring Intrinsic Diversity in Web Search)》,作者分别是来自康奈尔大学的Karthik Raman和来自微软雷蒙德研究院的Paul N. Bennett和Kevyn Collins-Thompson。这篇文章对用户在整个查询需求会话(search session)中的信息进行抽取和分析,从而促进对网页搜索结果的多样性方面的提升。

这两篇最佳论文均出自微软研究院,再一次体现了微软研究院在信息检索领域的国际领先地位。此外,微软亚洲研究院的酒井哲也(Tetsuya Sakai)和窦志成的论文《综述、检索排序和会话:信息获得评价的统一标准框架Summaries, Ranked Retrieval and Sessions: A Unified Framework for Information Access Evaluation》获得最佳论文runner up奖。

一些会议

工业技术报告会

今年的工业技术报告会邀请了来自世界各大搜索技术公司的十余位核心技术领导者来做报告。

其中,微软必应(Bing)搜索的高级总监Stefan Weitz介绍了面对越来越复杂和模糊的搜索请求,必应搜索是如何改进理解用户搜索意图的算法从而开发出更加易于使用的搜索产品的。雅虎副总裁暨雅虎欧洲拉丁美洲研究院院长Ricardo Baeza-Yates的报告强调了用户参与度(user engagement)在搜索产品中的重要性并且讨论了如何评价用户参与度的好坏。微软在线服务部门架构师Ronny Kohavi介绍了如何通过在线可控实验(online controlled experiments)来对搜索产品进行线上测试。

教学报告会

今年的教学报告会有10场,内容十分丰富,涵盖了实体(entity)检索、测试数据集创建、音乐搜索、多媒体推荐、大规模高效率搜索系统、排序学习、多样化搜索等等。

专题讨论会

今年的专题讨论会有7个,包含医疗健康搜索、互联网广告的理论与实践、时域信息在信息获取中的应用、基于用户行为分析的信息检索评价、搜索系统的人机交互、推荐系统以及历史文化遗产的检索。

微软亚洲研究院的高斌刘铁岩闫峻和百度公司的沈抖联合组织了互联网广告的理论与实践的专题讨论会,邀请了来自微软、谷歌、英国伦敦大学学院(University College London)、华为和阿里巴巴的7位核心技术骨干和学者来做报告,内容涵盖了互联网广告中的信息检索、数据挖掘、机器学习、经济学方法以及大规模广告系统的实现经验。

和主会类似,基于用户行为的信息检索评价在专题讨论会中也吸引了大量的参会者。随着互联网的高速发展和大数据时代的到来,互联网上的动态数据(如论坛,新闻以及微博数据)越来越多。如果利用这些数据,充分发挥时间维度在信息获取中的作用,是非常有价值而且迫切的研究问题。在此次大会的主会中,讨论这一问题的并不多。但时域信息在信息获取中的应用这一专题讨论会却吸引了大量的参与者,讨论了一系列有价值而且有意思的问题,利如如何基于公众意见(public sentiment)进行事件预测(如选举结果预测),如何改善搜索结果在时间维度上的多样性,如何提高时间相关查询的相关性等。

交流互动

今年有超过500人注册参会,许多从事搜索产品的公司比如微软、谷歌、雅虎、百度、Yandex为本次会议派出核心研究人员参会。同时,也有众多来自世界各地的学术界和工业界人士参加了本次会议,进一步加强了跨界的沟通和交流。值得注意的是,今年来自中国大陆地区的参会人数有了显著提高,比如中国科学院、清华大学、浙江大学、南开大学都派出很多研究员、教师和学生参会。

未来展望

从SIGIR的商务会议上,我们得知近年来SIGIR的财务状况很好,今后将进一步改善会议的服务、设施和环境,并加大对学生参会的资助。另外,通过今年的成功实践,今后的SIGIR poster将改为长为4页的short paper。2014年至2016年的SIGIR将分别在澳大利亚的黄金海岸(Gold Coast)、智利的圣地亚哥(Santiago)和意大利的比萨(Pisa)举行,接下来的这三届SIGIR的精彩内容,我们拭目以待!

作者简介:

高斌,微软亚洲研究院互联网经济与计算广告组(IECA)研究员。主要研究方向为计算广告、数据挖掘、信息检索和机器学习。

窦志成,微软亚洲研究院网络搜索与数据管理组研究员。主要研究方向为网络搜索与数据挖掘,包括:个性化网络搜索、查询理解以及搜索结果多样化等。

相关链接