分享到微博 分享到人人 分享到LinkedIn 分享到Email
精选|CIKM 2016会议论文选读

作者简介

王鹏伟

微软亚洲研究院数据挖掘与企业智能组(DMEI)的一名实习生,现在就读于华南理工大学电子与信息学院,同时也是一名华南理工大学和微软亚洲研究院联合培养的博士生,主要研究方向为数据挖掘、知识抽取、自然语言处理以及人工智能。

笔者上一篇文章主要对CIKM 2016会议做了一个概括性描述,本次CIKM会议研究领域总共录取了160篇长文,录取率为23%,109篇短文其中包括54篇扩充版短文(6页)和55篇短文(4页),录取率为24%。本文主要介绍几篇会议上值得留意的长文和短文。

● 本次大会的最佳论文奖颁给了“ Vandalism Detection in Wikidata” (doi>10.1145/2983323.2983740)。

● 最佳学生论文奖颁给了“Medical Question Answering for Clinical Decision Support” (doi>10.1145/2983323.2983819)和“Constructing Reliable Gradient Exploration for Online Learning to Rank” (doi>10.1145/2983323.2983774)两篇论文。

● 最佳Demonstration奖颁给了“ Inferring Traffic Incident Start Time with Loop Sensor Data” (doi>10.1145/2983323.2983339) 。

下面着重介绍一下医疗问答的这篇文章。

Medical Question Answering for Clinical Decision Support

这篇论文属于自动问答系统研究范畴,该文章首先从大量电子医疗文档(EMRs)建立好一个非常大的概率性医疗知识图谱。知识图谱中节点的种类包括症状、诊断、测试以及治疗。然后根据知识图谱以及给定的医疗案例主题(包含该医疗案例的描述性片段,医疗案例总结,以及该医疗案例的问题),该文章提出了三种生成答案的方法,最后用已生成的答案根据其与科学文献的相关度对科学文献进行排序,其整体框架以及实验结果如下图所示。之前解决该任务的方法基本上分为两步:1)根据每个主题的其他信息(描述性片段,医疗案例总结)对问题进行拓展;2)用已拓展的问题根据其与科学文献的相关度对科学文献进行排序。该文独特之处在于用知识图谱首先推理问题答案,再用答案代替问题直接和科学文献进行匹配。本任务最初的目的是希望找到对应的文献来回答每个主题的问题,所以用答案对文献进行排序的结果在理想状态下会优于用问题对文献进行排序的结果。研究医疗自动问答的读者可以仔细阅读一下全文。

在今年的CIKM会议上,我们团队的一篇论文“Learning to Extract Conditional Knowledge for Question Answering using Dialogue”以长文的形式被录取。这是一篇关于条件性知识库搭建并用于驱动自动对话系统的文章。选题之初我们发现现实生活中很多人机对话往往是由于条件不足而引起的,比如在预订车票的对话中,常常会因为用户在发起订票命令时,缺少“时间”,“地点”,“人名”等条件,因此智能助手会主动提问,从而导致长对话的产生。相同的应用场景还有预定会议室、购买手机等场景。然而在目前的对话系统中,这些所谓的条件往往都是人工提前设定好的,只要系统检测到用户没有提供这个条件就会主动发问。然后每个场景的条件往往很不相同,这就会需要大量的人力来手动提取条件。

基于此,我们提出从问答语料库中自动抽取条件性知识库用以支撑人机对话。传统的知识库或知识图谱以三元组形式保存,即(主语,谓词,宾语)。本文提出的条件性知识库的形式为(主语,谓词,宾语|条件),其意义在于在给定主语和谓词不变前提下,宾语会根据条件的不同而不同,下图为我们运行实例框架图(图中假设选定windows 10为主语),抽取条件性知识库的整个框架主要由四部分组成:

模板挖掘(pattern mining)。这一步目的是从大量的问题答案对中抽取模板(pattern)。一开始我们项目处理的数据是整个开放的数据集,后来发现后续处理难度实在太大了。最后我们采取复杂问题简单化,先选取“how to”等简单句型进行处理,扩展到更多的句型乃至整个数据集是我们下一步的计划。

条件以及模板表示学习(condition and pattern representation learning)。这一步表示学习是为了给下一步聚类做准备。

条件以及模板聚类。一开始我们采用最简单的k-means方法聚类,但是发现结果非常不好,但是我们发现条件和模板共同出现的现象,最后我们提出一种新的基于表示的联合聚类(Embedding based Co-clustering)的方法聚类, 该方法融合了之前学习到的条件以及模板向量表示,同时在模板和条件两个角度上聚类。

基于聚类结果,搭建条件性知识库。在得到条件性知识库后,用户输入一个问题,我们的系统首先会检测用户问题是否缺少条件,如果缺少就反问用户并让用户补全条件,最后系统返回正确的答案。

除了获奖的三篇最佳论文,大会上还有很多质量高的报告,尤为印象深刻的便是Deep Learning Application Session,整个报告厅座无虚席,会场后面很多站立的听众也是兴致勃勃。在这个Session中总共讲了四篇论文,分别为:

“LICON: A Linear Weighting Scheme for the Contribution of Input Variables in Deep Artificial Neural Networks”

“A Deep Relevance Matching Model for Ad-hoc Retrieval”

“A Neural Network Approach to Quote Recommendation in Writings”

“Retweet Prediction with Attention-based Deep Neural Network”

下面我们简单分析一下第二篇关于信息检索的论文。

A Deep Relevance Matching Model for Ad-hoc Retrieval

文中提出一种新的深度网络模型(DRMM)来解决Ad-hoc信息检索任务,计算query和文档(document)的相关度在信息检索中非常重要。该文对比了在计算相关度中有用到的两种深度网络结构:Representation-focused模型和Interaction-focused模型。Representation-focused模型中具有代表意义的模型有DSSM、 CDSSM以及ARC-I;Interaction-focused模型中具有代表意义的模型有ARC-II。该论文是在Interaction-focused模型基础之上进行修改,得到一个新的网络模型DRMM。之前的基于Interaction-focused的模型保留了位置信息,比如ARC-II中生成的交互矩阵,然后在此之上构建前向网络。但是在实际情况中,query中的词和文档中的词不具有位置上的对应关系。基于此,该文提出的DRMM是基于值的大小对matrix中的单元重新分类(即该文中所提到的直方图)。该文首先用query中的每个单词和文档的每个单词构建成为一个词对(word pair),再基于词向量,将一个词对映射到一个局部交互空间(local interactions,该文用了余弦相似度)。然后将每一个局部交互空间映射到长度固定的匹配直方图中。引用文中的例子,将相似度[-1, 1]分为五个区间{[-1,-0.5), [-0.5,-0), [0,0.5), [0.5,1), [1,1]} 。给定query中的一个词“car”以及一篇文档(car, rent, truck, bump, injunction, runway), 得到对应的局部交互空间为(1, 0.2, 0.7, 0.3, -0.1, 0.1),最后我们用基于计数的直方图方法得到的直方图为[0, 1, 3, 1, 1]。对于每一个query的词得到一个直方图分布后,在此之上构建一个前向匹配网络并且产生query和文档的匹配分值,最后在将query中所有词合并的时候加入gating参数(比较类似于attention机制),整个框架图以及实验结果如下图所示。研究信息检索的读者可以仔细阅读一下全文。

另外Question Answering Session中也有两篇高质量的论文,一篇即为获奖论文(医疗问答),下面简单介绍一下另一篇。

aNMM: Ranking Short Answer Texts with Attention-Based Neural Matching Model

文中提出了一种新的attention机制的神经网络模型aNMM来对答案进行排序。在aNMM模型中,主要引入了两个创新:1)使用值共享权重(value-shared weights)代替卷积网络中的位置共享权重(position-shared weights); 2) 在最后的全连接层中使用attention机制来给问题中不同单词进行加权,不太重要的词权重会很小,重要的词权重会很大。该文的value-shared weight方法和上一篇信息检索论文的原理上一致,均认为position-based的方法不太适合QA或者IR。不同之处为上一篇文章引入了直方图,而该文直接对普通CNN的卷积模板进行改造,词对的值在同一区间的权重共享,同时该文给出了aNMM的两个变种模型,一是aNMM-1, 二是aNMM-2。aNMM-1只是用了一组共享权重,而aNMM-2使用多组共享权重,整个框架图以及实验结果如下图所示。研究自动问答的读者可以仔细阅读一下全文。

Better Search Session中有一篇文章值得留意:

Learning Latent Vector Spaces for Product Search

文中提到在电子商务中商品搜索在如今线上购物网站中起重要作用,即用户通过输入一个短句子来搜索其想要购买的商品。为此文中提出了一种新的向量空间模型(latent vector space model),同时学习词向量和商品向量。其中词向量和商品向量分别处在不同的向量空间中,用户每次输入的句子首先会被映射到商品向量空间中,然后在商品向量空间中通过计算相似度来搜索对应的商品。其每条训练数据格式为(商品-文档),这里的文档包括商品的描述以及用户对该商品的评价。训练方法如下图所示。

其中w是句子中的一个词,x是一个商品,w先通过一个词嵌入矩阵Wv来得到其在词向量空间的词向量,之后通过一个非线性操作映射到商品向量空间中。最后在商品向量空间中计算词w和商品x的相似度。句子的向量是通过对其中所有词向量平均而得到的。该文通过(商品-文档)的相似度比(商品-其他随机文档)的相似度更相似的原理来构建目标函数。其实验结果如下图所示:

大会论文中也不乏一些有趣的文章,比如以下两篇文章:

Using Prerequisites to Extract Concept Maps from Textbooks”文中提出一种新的框架来从学习文档中抽取一种特殊的知识图谱——概念图(concept map)。不同于已有的知识图谱,该文的概念图中的节点代表的是科学概念或者数学概念而非人名、地名、组织名,同时节点之间的关系为“先决条件关系”(prerequisite relationship)而非“is-a”或“part-of”关系。先决条件关系代表着在学习一个高级概念时,有必要先把其基本概念搞清楚。比如在学习“L1正则化”时有必要先把“正则化”了解清楚。之前的工作经常将概念抽取和关系分类看作是两个独立的任务进行优化。本文通过自定义的五条规则来同时对关键概念抽取以及关系分类进行建模。

Finding News Citations for Wikipedia”一文主要解决给维基百科中词条描述寻找新的引用。目前大量的词条描述缺少引用或者引用过时,该文通过以下步骤来解决此问题,首先使用监督训练方法对词条描述进行分类,其中类别包括“是否需要一条新的引用”以及其他类别,然后分类完之后,通过信息检索的方法来检索一些和词条描述相关的引用文章,最后再通过一个分类器对检索出来的引用文献进行分类,确定其是否是正确的引用。

此外,本次大会还设了论文讨论环节,大家可以为喜欢的论文点赞,在官网(http://www.cikm2016.org/) Program-Paper Discussion Forum中仍然可以观看到投票结果。在本次讨论当中可以就喜欢的论文进行多人讨论。

会议海报环节

本次大会的海报环节场面也是相当火爆,整个环节持续一个半小时,可以随时随地和作者进行交流。海报环节也不乏有趣的文章。

Skipping Word: A Character-Sequential Representation based Framework for Question Answering”一文提出直接使用字符级表示来构建句子表示。近来字符级表示(character representation)已经在很多任务上被验证能够有效的提高性能,但是本篇文章与之前的工作不同的地方在于,之前的方法在构建句子的时候均为字符-词-句子的方式构建,而该文直接由字符-句子的方式构建。通过字符级表示得到句子表示之后,对其进行卷积以及采样。最后通过构建一个二分类任务进行训练,即问题和答案相关或者不相关。

Incorporate Group Information to Enhance Network Embedding”一文提出将组的信息考虑到Network Embedding学习中。之前基本上所有的Network Embedding方法只考虑了网络的节点以及节点与节点之间的边。但是在很多社交网络中(比如YouTube和FaceBook),用户可以自行建组,别人也可以选择加入他人建立的组中。同一组的节点即使直接没有边,一般也会存在一些内在关系。所以该文考虑将组的信息加入到Network Embedding中。该文的思想比较简单,每个相同的组也会学到一个向量表示,组向量有两个用处:1)在利用周围节点预测中心节点时,组向量也会加入预测; 2)组向量也会预测组中的其他节点。最后目标函数是将上述两项相加而成,得到令人满意的实验结果。

Distilling Word Embeddings: An Encoding Approach”一文中提出通过提取高维的词向量中的知识,并蒸馏(distilling)到低维的词向量中,在保证一定的准确率的前提下来提高运行效率。该文首先训练得到一个高维的词向量,之后在其上加一层非线性变化(单程全连接)得到一个低维的词向量,非线性变化的参数由最后的任务 (比如用低维词向量用作情感分析或者分类的输入)训练数据更新得到。最后实验结果表明,该文提出的方法优于直接在原始语料库中训练一个低维的词向量,同时准确率最高的结果是由高维词向量得到,但是低维词向量的耗时是高维词向量耗时的0.04倍。

Learning to Rank System Configurations”一文中通过使用学习排序的方法来自动配置任务算法中的参数。在实际模型中,比如信息检索模型以及拓展模型,经常包含很多种不同的特征,每一维的特征经常不是独立的,所以手工去调节这些参数将要花费大量的时间。该文中提出用最新的学习排序的方法来同时自动配置所有的特征。在实验中进行了多项任务,每项任务都事先给出一系列特征,最后的实验结果优于BM25和网格搜索(Grid Search)的结果。

通过这次会议论文分析,可以看出信息检索和自动问答系统在科学研究和现实生活中非常受欢迎,在解决信息检索任务时,既有传统的学习排序方法,也有目前火热的深度学习算法。但是目前很多深度学习算法在信息检索或其他自然语言处理任务中效果仍然不及其在图像上应用的结果,究其原因主要在于图像和文本有很大的本质区别,将适用于图像的深度模型直接移植用于文本往往效果不会好,应根据文本自身性质来改变网络结构,比如上述提到的value-based的方法。深度学习继续在信息检索和自动问答系统如何发力?让我们拭目以待。

如果读者对信息检索或者数据挖掘领域感兴趣,也欢迎大家随时和笔者互动,让我们在工作、学习中彼此交流与分享(笔者邮箱:eepwwang@163.com)。