分享到微博 分享到人人 分享到LinkedIn 分享到Email
大会CIKM 2016:大数据科学的前沿与应用

编者按:信息检索、知识管理和数据库领域中的顶级ACM会议CIKM于今年10月末在美国印第安纳波利斯举行。本次我们邀请到了微软亚洲研究院数据挖掘与企业智能组(DMEI)实习生、华南理工大学和微软亚洲研究院联合培养项目博士生王鹏伟同学与我们分享他眼中的CIKM大会。大会反映出了业界目前哪些研究热点?大数据科学领域又有哪些最新的发展前沿趋势?下面让我们跟随王同学的脚步一起来了解本次大会。

会议简介

CIKM是信息检索、知识管理和数据库领域中顶级的ACM会议。

自1992年以来,CIKM成功汇聚上述三个领域的一流研究人员和开发人员,为交流有关信息与知识管理研究、数据和知识库的最新发展提供了一个国际论坛。大会的目的在于明确未来知识与信息系统发展将面临的挑战和问题,并通过征集和评估应用性和理论性强的高质量研究成果以确定未来的研究方向。

2016年的CIKM大会于10月24日至10月28日在印第安纳州的印第安纳波利斯举行。

印第安纳波利斯位于印第安纳州的中央,跨怀特河两岸,是印第安纳州最大城市和首府,历史上因其工业(特别是制造业)闻名,也是体验美国独特赛车文化的去处。在印第安纳波利斯赛道上举办的比赛不计其数,但要说最知名和最重要的,那还要数“印第安纳波利斯500英里大奖赛”。而在主会第二天晚上正好赶上印第安纳步行者队和达拉斯小牛队的篮球比赛,对于篮球爱好者来说没有什么比亲临现场呐喊助威更让人感到精神振奋了。

即使对这些激烈运动都不感冒,你也会发现,印第安纳波利斯是一座喧嚣而又不失宁静的城市,高耸巍峨的士兵与水手纪念碑、庄严雄伟的世界战争纪念馆、安静祥和的Canal Walk以及散发着运动气息的NCAA冠军堂,俯拾皆风景,沿着美丽的Canal Walk走一圈,心中即使有再多的烦恼也会烟消云散……

海纳百川 有容乃大

CIKM-2016继续注重满足用户拥有统一的可访问的结构化和非结构化系统的需求:处于数据库、信息检索以及知识管理的交汇点,CIKM-2016大会着重强调大数据科学的前沿与应用,洞察大数据科学领域中的最新动态。

本次会议由大会主席翟成祥教授致开幕词,并介绍本次会议的投稿、审议标准和论文录用等情况,这也拉开了CIKM-2016大会的帷幕。今年大会日程包括专题报告(Tutorials)、大会主会议(Main Conference)和研讨会(Workshops)三大部分。在研究性领域(Research Track)中一共收到701篇长文(10页)和234篇短文(4页)的投稿,其中160篇长文被录取,录取率为23%。同时,今年为挽留一部分被淘汰的长文,主办方给予其作者修改为扩充版短文(6页)的机会,最终54篇扩充版短文(6页)和55篇短文(4页)被录取,录取率为24%。在工业性领域(Industry Track)当中一共收到111篇长文(10页)、26篇短文(4页)以及58篇demo论文的投稿,最终22篇长文、7篇短文以及20篇demo论文被录取,录取率分别为19.8%、26.9%和34.5%。本次会议首次尝试将工业论文扩展到10页。在这两百多篇研究性论文中,论文方向极其多样化,下图所示为录取论文方向分类以及论文内容字符云图。在本次大会中,所有的长文均获得了宝贵的20分钟口头报告的机会,短文则以海报展示为主。下图(左)所示为不同领域的投稿量,从图中可见图模型、分类任务、学习排序、信息检索以及知识库仍然是投稿量最大的5个领域。下图(右)为本次会议论文字符云图,其中Data、Learning以及Search等关键词出现频率较高,这也很好地吻合了本届CIKM的主题“Big Data”。

下图为本届CIKM会议的参会注册人数比例统计图,显示来自中国参会的学者比例居于第一。

深入浅出,全面剖析

在CIKM-2016大会的第一天总共有8场专题报告(Tutorials),每场将近持续3个小时,中途有半个小时的茶歇休息时间,很多与会人员会利用这段时间和主讲人仔细探讨交流。8场专题报告虽然各自主讲的领域不同,但是基本上全部围绕在数据(data)这一核心上。例如,由IBM的Ping Zhang带来的“Big data science in drug discovery and development”的专题报告中,将数据挖掘方法应用在医学数据上,自动地从文本中提取药物名称以及加快药物研发速度,降低研发成本以及时间;James G. Shanahan带来的“Large scale distributed data science using Apache Spark 2.0”的专题报告中,系统讲述了如何在Apache Spark 2.0平台上处理大规模数据集。通过听取这些详细的专题报告,即使没有相关的专业背景,也能快速对一个领域有一个宏观的认识。

除了专题报告,CIKM-2016还举办了多场特邀报告,其中包括3个学术性特邀报告以及4个工业性特邀报告,主讲人来自五湖四海,既有来自于高校的著名教授,也有来自于企业界的主要负责人。比起主题讲座,特邀报告内容则更加全面细致,基本可以涵盖这一领域的历史发展,同时也给出该领域的展望以及预测。下图为3个学术性特邀报告的主讲人。

  • Rakesh Agrawal教授的报告题为“Toward Data-Driven Education”,提出并给出如何将日常学习教育抽象成一个知识图谱,其中每一个节点均是一个学习单元,再根据这样一个构建好的知识图谱,使用数据挖掘技术来提高整体的学习目标。这就给出了一个很好的将学术(知识图谱以及数据挖掘)与产业(学习教育)相结合的例子,非常有创意,感兴趣的读者可以复制以下链接以下载Rakesh Agrawal教授本次讲义(https://aminer.org/archive/5807c78232917761ff2bf3ae)。
  • Susan Dumais教授的报告题为“Personalized Search: Potential and Pitfalls”:传统的搜索引擎对不同用户提出的同一问题返回的搜索结果是相同的,然而有时不同的人对同一个提问会有不同的意图,这造就了个性化搜索的诞生,Susan Dumais提出了一个统一的框架,将个人信息融合到搜索引擎中,最终达到个性化搜索的要求。读者可在此下载讲义(https://cn.aminer.org/archive/573697446e3b12023e631cd5)。
  • Andrei Broder教授的报告题为“A Personal Perspective and Retrospective on Web Search Technology” ,通过回顾自己近20年中关于互联网搜索以及预测的工作,指出了在这20年的成果中,哪些取得让人满意的结果,而哪些方法又会产生不好的结果。

奇思妙想,别出心裁

本次大会的最佳论文奖颁给了“ Vandalism Detection in Wikidata” (doi>10.1145/2983323.2983740),最佳学生论文奖颁给了“Medical Question Answering for Clinical Decision Support” (doi>10.1145/2983323.2983819)和“Constructing Reliable Gradient Exploration for Online Learning to Rank” (doi>10.1145/2983323.2983774)两篇论文,最佳展示奖颁给了“ Inferring Traffic Incident Start Time with Loop Sensor Data” (doi>10.1145/2983323.2983339).

以下简单介绍一下这几篇优秀论文(更多优秀会议论文分析,敬请期待)。

Medical Question Answering for Clinical Decision Support”:这篇论文属于自动问答系统研究范畴,首先从大量电子医疗文档(EMRs)建立好一个非常大的概率性医疗知识图谱,然后根据知识图谱以及给定的医疗案例topic(包含该医疗案例的描述性片段、医疗案例总结以及该医疗案例问题),提出三种答案生成的方法,最后用已生成的答案将相关的科学文献排序。

Constructing Reliable Gradient Exploration for Online Learning to Rank”:这篇论文提出两种方法来改进现有的在信息检索系统中使用的在线学习排序(OLR)算法。第一种为DP-DBGD, 该方法是从DBGD方法扩展而来,通过使用两组随机相反的梯度探测方向取代随机单方向梯度探测来减少梯度逼近的差异。第二种为MP-DGD,不同于之前使用随机向量构建无偏梯度估计的OLR算法,该方法通过一系列标准单位基向量来构建一个确定性的梯度估计。该论文最后还提出一种利用历史探索得到的先验知识使多个检索结果融合为一个交叉结果的算法CI。

Vandalism Detection in Wikidata”:这篇论文提出了一种新的机器学习方法来自动检测Wikidata中的恶意修改。该文从内容信息和上下文信息角度提出了47个特征。基于内容信息的特征集合主要包含字符级特征集合、词级特征集合、句子级特征集合以及陈述级特征集合。基于上下文信息的特征集合主要包含用户级特征集合、条目级特征集合以及修正级特征集合。根据上述特征集合,使用随机森林作为分类器进行分类。

至于我们团队的论文。“Learning to Extract Conditional Knowledge for Question Answering using Dialogue”,则是一篇关于知识库搭建的文章。在现实生活中,很多人机对话往往由于条件不足而引起,比如在预订车票的对话中,常常由于用户在发起订票命令时缺少“时间”,“地点”,“人名”等条件,导致智能助手会主动提问,从而产生了长对话。类似的应用场景还有预定会议室、购买手机等场合。然而在目前的对话系统中,这些所谓的条件往往都是人工提前设定好的,只要系统检测到用户没有提供这个条件就会主动发问。然后每个场景的条件往往很不相同,这就需要大量的人力来手动提取条件。基于此,我们提出从问答语料库中自动抽取条件性知识库用以支撑人机对话。传统的知识库或知识图谱以三元组形式保存,即(主语,谓词,宾语)。本文提出的条件性知识库的形式为(主语,谓词,宾语|条件),其意义在于在给定主语和谓词不变前提下,宾语会根据条件的不同而不同。在抽取得到的条件性知识库后,用户输入一个问题,我们的系统首先会检测用户问题是否缺少条件,如果缺少就反问用户并让用户补全条件,最后系统返回正确的答案。

CIKM 25周年庆典

CIKM大会从1992年开始至今已经走过了25年,今年的大会特别回忆了起步之初的情景:第一届会议在Radisson Lord Baltimore酒店举行(如今已破产),当时大家对于互联网还是特别新鲜。Tamer Ozsu和Ed Fox关于DBMS和IR讲了一整天的专题报告,而Bruce Croft则给出了CIKM史上第一个邀请报告。当年参与过第一届会议的学者如果亲临现场肯定会有往事历历在目之感,而现场也邀请了前几届大会主席依次上台回顾CIKM这25年的历程。

谢乐星教授给出了CIKM从1992起到2015年这24年里论文的引用统计图表(更多内容参见http://cm.cecs.anu.edu.au/citation/CIKM/)。从下面两图均可看到,就引用和被引用的比例而言,CIKM和COLING、WSDM、ICDM、EMNLP、ACL、WWW、AAAI、SIGIR、KDD等国际顶尖会议的互相引用比例相近。从CIKM引用其他会议或期刊比例来看,SIGIR、WWW、KDD、VLDB以及SIGMOD居于前五位。从CIKM被其他会议或期刊引用比例来看,SIGIR、WWW、KDD、ECIR、TKDE居于前五位。谢教授根据CIKM近24年的引用统计图表,给出了一个有意思的结论:科学想法来自何方,又去到何方?

同时谢教授又给出了一个关于“在CIKM发表的文章,最多能持续多长时间被引用”的统计,结果基本成线性递减。基于此,谢教授也给出了一个很有意思的话题:经过5年、10年、20年,哪些论文是最容易忘记的,哪些论文会一直被研究者牢记?

立足今日,展望未来

本次CIKM在展示相关领域最新研究动态的同时,也对信息检索以及知识挖掘的下一步发展有启示意义。

深度学习在信息检索中进一步应用。此前深度学习在图像和语音领域中取得了巨大的成功,但是在信息检索中效果不尽如人意。究其原因主要在于图像语音和文本有很大的本质区别,将适用于图像和语音的深度模型直接移植用于文本往往效果不会好,应根据文本自身性质来改变网络结构。

半监督学习的应用。由于近年来数据量急剧增大,人工标注已然不现实,既浪费人力、财力,又浪费时间。近年来很多研究员着手研究利用半监督算法或者类半监督算法来充分利用没有标记过的数据或者其他任务中标记过的数据,比如多视图学习(multi-view learning)、主动学习(active learning)、多任务学习(multi-task learning)、迁移学习(transfer learning)以及终身学习(lifelong learning)等算法。

个性化服务的搭建。随着人类需求多样性的增加,用户对传统的智能服务要求也是越来越复杂,对用户最为贴心的当属个性化服务,比如个性化搜索以及个性化智能助手等服务。然而个人文件和外部数据比起来,数据量非常之少,因此,如何将个人文件等小数据融合到外部的大数据,并且个人文件小数据也会影响最终的结果,是一个非常有挑战的任务。

CIKM大会至今已经成功举办25届,每一届均吸引着无数的科技界与企业界研究人员参加,会议的研究领域也在不断拓宽。本届会议主题聚焦大数据科学,无论是特邀报告、专题报告还是会议论文报告,都是一场巨大的文化盛宴。总的来说,这次参加CIKM-2016大会让我收获良多。CIKM作为信息检索、知识管理和数据库的一个综合性会议,使我在认识更多优秀同行的同时,也能洞察目前最新研究的发展及动态。

CIKM 2017将在新加坡举行,届时会有哪些文化与科技的碰撞?让我们拭目以待。

作者简介

王鹏伟

微软亚洲研究院数据挖掘与企业智能组(DMEI)的一名实习生,现在就读于华南理工大学电子与信息学院,同时也是一名华南理工大学和微软亚洲研究院联合培养的博士生,主要研究方向为数据挖掘、知识抽取、自然语言处理以及人工智能。