分享到微博 分享到人人 分享到LinkedIn 分享到Email
重新定义“搜索”:“中国飓风”席卷第28届国际信息检索年会
作者 微软研究院
2005年8月17日

8月15日-19日,第28届国际信息检索年会(ACM SIGIR 2005)在巴西的建筑文化古城萨尔瓦多(Salvador)举行。大会上,微软亚洲研究院掀起了一场“中国飓风”—— 2005国际信息检索年会共采纳了微软亚洲研究院的12篇高质量论文,数量超过年会获选论文总量的15%。

作为信息检索领域最具权威的世界级学术盛会之一,国际信息检索年会每年都会吸引全球最具实力的信息搜索公司及数百位学界知名人士的参与。大会对于参评论文的遴选极其严格,只有那些最具创新性、对信息检索技术未来发展有重要突破及影响的研究成果才能被大会所采纳。去年,微软亚洲研究院在大会上发表了7篇论文(约占获选论文总量的10%),成为了当年大会最耀眼的明星;而今,微软亚洲研究院再接再厉,蝉联了大会论文获选量的冠军。

微软亚洲研究院院长沈向洋博士表示,对于微软亚洲研究院在2005国际信息检索年会的优异表现深感欣慰。他还特别指出了两个事实——一是与微软亚洲研究院的青年学者大放异彩:在此次大会上,除了微软亚洲研究院研究员发表的12篇论文之外,现供职于其他大学和研究机构,以前曾是微软亚洲研究院的“实习生”们亦崭露锋芒,有至少6篇论文被今年的大会所采纳。大会现场举目望去,一大批优秀的华人青年学者,掀起了一场不折不扣的“中国飓风”。二是此番微软亚洲研究院此番所取得的突出成就有好几项是与国内高校如清华大学、上海交大等高校长期合作的成果。最后,沈向洋博士表示:“所有这些成绩坚定了我们对互联网搜索领域研究更大的投入。我们还将进一步加速这些研究成果的技术转化、早日使计算机用户体验到我们的技术信息和决心。”

此次微软亚洲研究院的入选论文技术创新主要集中在如何提高互联网搜索结果的精度和智能化、针对互联网搜索的一些全新应用的探索,以及信息检索领域的经典问题领域的研究。这些论文所涉及到的技术将改变人们的互联网搜索的习惯,进而重新定义“搜索”。例如,其中一项技术可以令门户网站新闻频道的编辑再也无须以“手工”的方式去建立与维护某个“新闻专题”——“检测新闻事件的概率模型”能够自动将与新闻事件相关的所有信息集成起来,“形成一个完整的报道”。再如,搜索引擎的用户往往会发现查询结果雷同较多——或是没有主次之分,当前,微软亚洲研究院的学者们不仅可以让搜索工具智能辨识网页与网页的相似度,从而将区别较大的网页内容进行优先级分级;还可通过网页的“相关性”来分析网站的架构关系,并在此基础上对网页的重要性与敏感度进行评估,从而大大提升了互联网搜索结果的精度。

除了在提升互联网搜索精度、使搜索结果更加智能化和人性化的技术创新之外,微软亚洲研究院也在信息检索领域最基本的理论问题 ——信息检索模型研究上取得了重大进展,论文《基于引力的信息检索模型》是研究员受牛顿万有引力定律的启发而提出的。这个模型建立了一个从信息检索的基本概念(如文档、查询、相关性等)到物理概念(如质量、距离、半径、引力等)的映射,并由此为信息检索问题提供了一个全新的视角。这一研究成果在今年的大会上一经发布,在整个信息检索学术界产生了巨大的轰动。

此次微软亚洲研究院的入选论文共分为四类:其一,针对互联网搜索一些全新应用的探索的研究,如《检测新闻事件的概率模型》、《检测查询词的主要地理位置》;其二,提升互联网搜索精度的研究,如《利用层次结构的链接分析》、《HTML网页正文中的标题抽取及其在网页检索中的应用》、《相关性传播在网络搜索中的应用》、《通过相似图改进互联网搜索结果》;其三,提高互联网搜索结果智能化的研究,如《使用基于聚类的平滑技术实现可伸缩的协作过滤》、《基于正交质心准则的最优的文本分类的特征提取》、《通过同一关系矩阵计算相似度》、《基于网页点击数据的网页摘要》;其四,也是信息检索领域的经典问题——构建对传统信息检索新的模型的研究,如《基于引力的信息检索模型》、《用于信息检索的线性判别模型》。

微软亚洲研究院早在2001年底,便开始了有关互联网信息检索技术的研究,积累了不少有价值的研究成果。近两年微软亚洲研究院在SIGIR大会取得的成就和产生的影响备受各国学者和产业界人士瞩目。2004年9月,微软亚洲研究院宣布在原有新一代多媒体、新一代用户界面、无线及网络技术和数字娱乐四大研究方向的基础上,增加互联网搜索和挖掘为第五大研究方向,扩大在此领域的研究和开发,旨在为计算机用户提供更精确、更具人性化的智能搜索技术和产品,不断丰富人们的互联网搜索体验。