分享到微博 分享到人人 分享到LinkedIn 分享到Email
2013 ACM网络搜索与数据挖掘国际会议

编者按:ACM网络搜索与数据挖掘国际会议(6th ACM Conference on Web Search and Data Mining, 简称WSDM 2013)于2013年2月4在意大利首都罗马举行。微软亚洲研究院副研究员武威出席了此次会议。在WSDM设立的与图数据隐私保护相关的数据竞赛中,来自微软亚洲研究院的参赛队伍参加了图数据去匿名化的子任务,并获得了第一名。下面,让我们一起来看看武威研究员带来的大会回顾。

作者: 武威 微软亚洲研究院副研究员

会议概况

2013年2月4日,第六届 ACM网络搜索与数据挖掘国际会议 (The Sixth ACM International Conference on Web Search and Data Mining, WSDM2013) 在意大利首都罗马举行。WSDM是一个新兴的网络搜索与数据挖掘方向的国际会议,主要由工业界的一些大型IT公司赞助。这次会议是继2009年在巴塞罗那举办之后,第二次在欧洲举办。

WSDM,读音为wisdom。该会议于2008年首次举办,由微软、谷歌和雅虎等公司赞助。相对于传统的WWW、SIGIR和ACMSIGKDD等会议,WSDM更加重视应用,是典型的应用会议。本次大会历时5天,共收到来自36个国家和地区的387篇投稿。其中,有73篇文章被大会录用,录用率为18.9%。录用文章的作者遍布20个国家,4大洲,使WSDM真正地成为了一个国际性的网络搜索与数据挖掘方向的顶级会议。其中,投稿最多和被录用文章最多的是美国。中国(包括大陆以及港澳台地区)共有10篇文章被录用,作者来自清华大学、中国科学院、中国人民大学、哈尔滨工业大学、香港中文大学以及微软亚洲研究院和惠普中国研究院。每一篇录用文章都被安排了口头报告和海报展示。为了合理安排大会时间,口头报告分为20分钟的长报告(plenary presentation)和6分钟的短报告(spot light presentation)。在73篇录用文章中,有40篇文章的作者获得了长报告的机会。长报告有问答时间,短报告则没有。

这次大会包括8个辅导报告(tutorials)、6个研讨会 (workshops)、3个主题演讲(keynotes)、9个专题(sessions)以及一个数据竞赛(data challenge)。其中,数据竞赛包括图数据压缩和图数据去匿名化两个子任务,是WSDM历史上举办的首次竞赛。从主题演讲和专题的内容分布来看,社交网络(social network)成为了本次大会的绝对主角。三个主题演讲都与社交网络有关。而9个专题中,有4个与社交网络、社会媒体(social media)有关。相关工作覆盖了社交网络数据的存储、话题动态、社区发现和情感分析等各个方面。除了社交网络,还有当下十分热门的“大数据”专题。大数据专题中的工作主要研究大数据下的算法效率和数据存储问题。一个十分有意思的事情是,在会议最后一天的工作午餐(business lunch)中,WSDM的一位主席报告了他们对于录用论文题目的统计分析。通过对录用论文和未录用论文题目建立分类模型,他们发现了接收论文的一些特点,令人印象深刻的是“social network”和“wikipedia”这两个关键词。这两个关键词在分类模型中很有区分度,是论文被接收的关键性词汇。这也从另外一个角度说明了本次大会,乃至整个网络搜索与数据挖掘学术领域的研究趋势。

主题演讲

本次大会包括三个主题演讲,分别是邓肯·沃兹(Duncan Watts)的“The Virtual Lab”,凯瑟琳·塔克(Catherine Tucker)的“Three Findings Concerning Protecting Consumer Privacy Online”,以及杨强的“Big Data, Lifelong Machine Learning and Transfer Learning”。邓肯是微软研究院的首席研究员,也是微软纽约实验室的创建人之一。他的研究兴趣是社会科学。他的演讲主题是虚拟网络对社会科学研究的影响。随着诸如Amazon’s Mechanical Turk等众包 (crowdsourcing)网站的出现,社会科学家们可以利用互联网构建一些“虚拟的实验室”,来进行之前的“物理实验室”在规模和速度上无法实现的人类行为实验。他把社会科学的研究分为了Turk前和Turk后两个部分,并通过一些实验结果说明了互联网为社会科学研究带来的机遇和挑战。凯瑟琳是美国麻省理工史隆管理学院(MIT Sloan) 的副教授。她的研究兴趣是信息技术对于人类商业行为的影响。她的演讲主题是数字化时代的个人隐私保护。互联网的产生和发展使得商业公司能够更容易地获得客户的个人信息。在这个前提下,她报告了一些关于个人隐私保护的经验性结果。基于大量的实验,验证了三个发现:第一,个人隐私保护不利于在线广告的有效推广;第二,个人隐私保护能够促进经济产出(economic outcomes);第三,限制私人数据的存储时间没有太多的经济影响(economic impact)。有趣的是这次WSDM恰好设立了一个与图数据隐私保护相关的数据竞赛。来自微软亚洲研究院的参赛队伍参加了图数据去匿名化的子任务,并获得第一名。杨强是中国香港科技大学的教授,现任华为诺亚方舟实验室的主任。他在报告中展示了诺亚方舟实验室在大数据挖掘方面取得的成果,并介绍了迁移学习 (transfer learning)及其在大数据挖掘上的应用。该报告提出了持续性的机器学习和数据挖掘。

图2邓肯·沃兹作题为"The Virtual Lab"的主题演讲

具体来说,大数据洪流带来两个挑战:一方面,如何能够有效地消除噪音,从大数据中挖掘到我们想要的知识;另一方面,当数据发生变化时,已有方法能否自动调整。基于这两个理念,他展示了近期诺亚实验室取得的一些成果,包括微博自动推送机器人小诺以及手机终端上的生活助手等。纵观这次大会的主题演讲,所有内容都或多或少地与当下在学术界和工业界都很热的社交网络以及大数据有关。可以说,社交大数据的时代大幕已经拉开。无论是学术界还是工业界,都在努力争取在新技术时代留下自己的名字。然而,群雄逐鹿,胜负未分。谁能首先抓住问题的本质,以最快的速度应对变化并产生影响,谁就能占得先机,取得新时代技术上的主导地位。

最佳论文

WSDM2013从73篇接收的论文中选出了两篇最佳论文。其中,最佳论文“Optimized Interleaving for Online Retrieval Evaluation”的作者是微软研究院的两位研究员。在这篇工作中,作者系统研究了信息检索系统的在线评估办法,提出了一套新的交叉评估 (interleaved evaluation)框架。交叉评估是在线评估的主要方法之一。交叉评估算法是指将同一查询下的两个排序结果以某种方式组合在一起,通过跟踪用户在交叉排序列表上的点击表现来评估排序方法的好坏。交叉算法包括排序组合算法和点击评分机制两部分。已有的工作都存在一些问题,在一些特定排序上会出现与直觉不一致的评估结果。本文的作者创造性地将交叉算法的设计转化成了一个带约束的优化问题,并通过理论证明说明了所提方法不仅包含已有的方法,而且能够克服已有方法的一些弱点。此外,本文作者还提出了利用搜索的历史日志数据来评估交叉算法性能的方法。通过定性分析和定量评估,作者说明他们所提的交叉算法能够克服已有交叉算法存在的一些问题,在评估排序结果好坏上与传统的基于NDCG的办法有更好的一致性,同时所需的样本量又和已有的交叉算法相当。

最佳学生论文“Balanced Label Propagation for Partitioning Massive Graphs”是美国康奈尔大学和Facebook的合作成果,解决的是大规模图分割的问题。随着社交网络数据的迅猛增长,如何合理地分割网络关系图,从而实现分块存储成为了一个重要问题。论文将图分割问题形式化成一个带约束的优化问题,而这个优化问题又可以转化为一个线性优化问题,从而可以利用已有的线性优化工具进行高效求解。在两篇最佳论文中,分别关注了传统网络搜索和当下比较火的社交网路问题。两篇文章都有比较好的数学基础和丰富、扎实的实验结果,这也是他们能够最终获选最佳论文的重要因素之一。值得注意的是,两篇最佳论文的主题一旧一新,这体现了本届WSDM承前启后,既重视传统领域中扎实严谨的工作,又鼓励对新领域新问题探索的主导思想。

对WSDM未来的展望

作为一个举办了六届的大会,WSDM在投稿的数量、评审的尺度、接收论文的质量以及参与人的数量和水平上都在逐渐走向成熟。本届大会以社交网络为主题,同时兼顾大数据等新概念,很好地体现了WSDM连接学术界与工业界的宗旨。尤其是大规模关系图分割及存储技术,笔者认为不仅对学术界来说很有研究价值,对于工业界,特别是像Facebook这样的社交网络公司也可能产生直接的应用价值。

申明:《2013 ACM网络搜索与数据挖掘国际会议》一文在微软研究院博客上转载经由《中国计算机学会通讯》同意,版权归《中国计算机学会通讯》所有。原文刊登于《中国计算机学会通讯》20133月第85

作者简介:

武威,微软亚洲研究院高副研究员。主要研究方向为机器学习、智能问答和信息检索。

参考文献

相关链接