分享到微博 分享到人人 分享到LinkedIn 分享到Email
大牛带你读论文|自然语言处理

【编者按】阅读和浏览论文,可能是微软亚洲研究院研究员每天都要做的事情。我们会不定期邀请研究员分享他们近期阅读的论文。本期由专注自然语言处理技术的崔磊研究员介绍他在ACL 2016大会上留意的五篇论文,这些论文涉及机器学习、深度神经网络与自然语言处理技术,也是微软亚洲研究院的研究前沿方向。

ACL大会的全称是国际计算机语言学大会,属于计算机语言学和自然语言处理领域的顶尖会议。ACL 2016大会于今年8月在德国举行,微软有20多位研究员参加,错过了前期报道的同学请点击《计算语言学思想碰撞的浪潮:ACL 2016》。

第一篇是UC San Diego和MIT的语言学方面的研究工作,题目是“FindingNon-Arbitrary Form-Meaning Systematicity Using String-Metric Learning forKernel Regression”,这篇文章是2016年ACL会议的最佳论文,主要探讨了自然语言中“符号任意性”(arbitrariness of the sign)的问题。

所谓“符号任意性”,指的是文字的字面形式与其含义无关。举一个简单的例子:上学的时候大家都背英文单词,一种直觉认为单词拼写相似的时候,含义往往有一定关联,以“gl”开头的单词很多于视觉相关,比如“glow, glint, glaze, gleam”。近年的主流语言学研究对于“符号任意性”有两种不同的看法,一种认为行为和语料库研究认为字面形式和其含义的关联只存在于有限词表中,一种认为字面形式和其含义的关联广泛存在于全部词表中。这篇论文的主要贡献在于,作者利用一种统计的核回归方法(kernelregression)来判断语言中的字面语义关联,通过字面形式的关系可以推断出词汇之间的分布语义(Distributional Semantics)关系。研究结果表明,英文词汇的字面语义关联远比我们通常认为的要广泛,而且这种关联往往体现在局部的字面形式。文章的实验设置很清晰,并不复杂,有兴趣的同学可以自行实现作者的方法。

第二篇是Universityof Cambridge对话系统方面的研究工作,题目是“On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems”,这篇文章是2016年ACL会议的最佳学生论文,主要探讨了对话系统中的强化学习(Deep Reinforcement Learning)问题。强化学习是近年来人们探讨和研究很热的一个方向,著名的阿尔法围棋算法(AlphaGo)便是采用了强化学习算法,使得程序之间可以相互博弈以提高自身的能力。在强化学习的研究中,如何定义和学习奖励机制(reward)是十分重要的,然而,传统的用户反馈的方法开销很大,在实用系统中无法承受。文章提出一种在线学习的框架,首先通过循环神经网络生成对话表示,进而利用基于高斯过程的主动学习机制大大降低了人工标注的代价。University of Cambridge这个研究组在对话系统方面有着长期深入的研究工作,建议感兴趣的同学可以多关注这方面的工作。

第三篇来自Stanford University机器阅读理解方面的研究工作,题目是“A Thorough Examination ofthe CNN/Daily Mail Reading Comprehension Task”。说到“阅读理解”,顾名思义,就是给定一篇文章或者一段文字,人们在阅读之后回答与文字相关的问题,这项任务在英文考试中经常出现。机器阅读理解指的是让机器模拟人来完成这项任务,与其他机器学习任务相比,机器阅读理解目前遇到的最大问题是缺乏高质量的人工标注数据。2015年,Hermann等人通过挖掘CNN和DailyMail网站的新闻数据制作了目前较大的一个机器阅读理解数据集。文章基于这个数据集,提出了两种基于分类的方法,分别是传统的分类器LambdaMART和基于神经网络的分类器,其中基于神经网络分类器的结果在两个数据集的分类准确率在73.6%和76.6%,多个模型的集成进一步将准确率提升至77.6%和79.2%。阅读理解任务是目前问答研究非常火的一个领域,近来Stanford University也发布了SQuAD数据集(The Stanford Question Answering Dataset),人工标注了500多篇文档,总结出100,000多个问题答案对,为阅读理解的研究提供了更多的数据,也有越来越多的研究人员开始从事机器阅读理解方面的工作。

第四篇工作关于华为诺亚方舟实验室神经网络机器翻译方面的研究工作,题目是“Modeling Coverage for Neural Machine Translation”。多年来,机器翻译研究的热点集中在以IBM 模型演化而来的统计机器翻译,随着数据规模的增长,在过去的十多年中,统计机器翻译的性能取得了大幅度的提升,各种模型算法也层出不穷。近年来,神经网络深度学习的发展逐渐成熟,在语音图像文本的处理中大行其道,也取得了长足的进步。相比于传统的统计机器翻译,神经网络机器翻译无需考虑两种语言的词汇对齐,同时将翻译模型、语言模型、调序模型等统一整合至基于循环神经网络的Encoder-Decoder框架当中,直接端到端(end-to-end)生成翻译结果,做到了语言无关,优势明显。目前,虽然神经网络机器翻译系统的水平已经超越了传统统计机器翻译,但其本身仍然存在一些问题需要解决,例如过度翻译(over-translation)和翻译不足 (under-translation)的问题。这是由于目前的神经网络机器翻译系统采用了基于注意力(attention)机制的循环神经网络,在翻译的过程中历史的注意力信息往往被忽略。文章的主要贡献在于设计了一种循环神经网络的注意力覆盖向量(coveragevector),用于记录翻译过程中的历史信息,帮助翻译过程根据源语言更好的生成翻译结果。实验表明,这种添加了覆盖向量的模型在翻译质量上超越了传统的神经机器翻译方法。

第五篇是加拿大蒙特利尔大学和IBM T. J Watson Research深度学习方面的研究,题目是"Pointing the Unknown Words”。熟悉深度学习在自然语言处理领域应用的人都知道,当前由于深度学习计算的时间与空间,以及自然语言处理本身的特性,大多数的自然语言处理的模型都面临着未登录词(OOV)的问题。这篇文章针对Sequence-to-Sequence生成中未登录词的问题,提出一种基于注意力机制(attention)的神经网络结构,用以解决深度学习中低频词的处理。具体来讲,作者利用两个Softmax层预测语言模型中的下一个词,其中一个Softmax层用于预测Seq2Seq源端词的位置,另一个Softmax层用于预测Seq2Seq目标端候选名单中的词。在神经网络计算的每一个时刻,通过将上下文信息(content)输入另一个多层感知机网络(MLP)来决定具体使用哪个Softmax来产生结果。作者在英法机器翻译和自动摘要两个任务上测试了该方法,模型的性能都得到了稳定的提升。近来人们对于处理深度学习中未登录词的问题十分关注,在ACL2016会议中,还有多篇文章涉及到这个话题,例如华为诺亚方舟实验室的“Incorporating Copying Mechanism in Sequence-to-Sequence Learning”和爱丁堡大学的“Neural Summarization by Extracting Sentences and Words”,感兴趣的同学可以关注一下。

最后一篇文章来自微软亚洲研究院自动聊天机器人方面的研究,题目是“DocChat: An Information Retrieval Approach forChatbot Engines Using Unstructured Documents”。提到聊天机器人,大家可能会想到非常火的一款聊天机器人产品“微软小冰”,“微软小冰”通过在大数据、自然语义分析、机器学习和深度神经网络方面的技术积累,通过理解对话的语境与语义,实现了超越简单人机问答的自然交互。目前自动聊天机器人的训练数据绝大多数来自互联网社区和社交网络中的公开数据(问题答案或者聊天回复),虽然规模很大,但是形式较为单一。文章的主要贡献在于通过挖掘分析大规模非结构化文档,利用文档中的内容与用户进行聊天交互,这样一来大大突破了传统聊天机器人可利用的数据边界,极大地丰富了聊天内容库。作者通过抽取不同粒度的特征用以表示用户所说的话与机器人回复之间的相关性,同时利用机器学习中的经典算法排序学习(Learningto Rank)对不同特征予以整合。实验结果表明,这种方法在英文和中文的测试中都表现出很好的效果,可以与传统自动聊天机器人进行有机结合,提供更好地聊天回复。

原文链接

Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression:

http://www.cogsci.ucsd.edu/~bkbergen/papers/smlkr_final.pdf

On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems:

https://arxiv.org/abs/1605.07669

A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task:

https://arxiv.org/abs/1606.02858

Modeling Coverage for Neural Machine Translation:

https://arxiv.org/abs/1601.04811

Pointing the Unknown Words:

https://arxiv.org/abs/1603.08148

DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents:

http://aclweb.org/anthology/P16-1049

作者简介