分享到微博 分享到人人 分享到LinkedIn 分享到Email
计算语言学思想碰撞的浪潮:ACL 2016

小编按:

计算机语言学和自然语言处理最顶尖的会议之一ACL 2016于八月初在德国举行。微软有20多位研究员参加了ACL 2016,是本次大会上一个最为重要的研究团队之一。本次微软研究院共为与会者带来了1个Tutorial,2个workshop,以及17篇被录用的论文。想知道这次ACL大会上都有哪些不容错过的闪光?微软亚洲研究院实习生黄丹青和闫昭给你带来了这次大会分享。

备受关注的ACL

ACL会议是计算机语言学和自然语言处理最顶尖的会议之一,每年都吸引了许多学者投稿及参与。今年8月初ACL 2016在德国柏林洪堡大学举办。柏林是一座具有深厚文化底蕴以及历史沧桑感的城市,洪堡大学更是柏林最古老的大学,先后出过29名诺贝尔奖获得者。其校训是校友马克思的名言:“从来哲学家都在解释这个世界,而问题在于改变这个世界”。在这个知名学者倍出的大学里,尤其学校创始者Wilhelm von Humboldt,他是位出色的语言学学者,ACL 2016可谓是带来了又一波计算机语言学思想碰撞的浪潮。

会议上所用的conference book

此次会议共收到1290篇投稿,接收328篇,其中长文231篇,短文97篇,总体接收率25%,与往年差不多。超过1600多人注册参加此次会议。微软、谷歌、亚马逊等IT巨头都参与了企业展示。从中可以看到,ACL受到了越来越多学术界与工业界的关注。从接收的论文来看,研究领域十分的多样化,使用的模型更新速度也很快,毫无疑问,其中深度学习(deep learning)相关的占据了半壁江山。整个会议日程安排得很好,美中不足的是由于论文数量多,一天安排了多达7个session同时进行,感兴趣的几个报告都赶在同一个时间段了。

精彩纷呈的ACL

会议举办了两场特邀讲座,分别是来自加州大学的Amber Boydstun以及爱丁堡大学的Mark Steedman。Amber Boydstun主要的研究方向是政治学而并非语言学,但她引进了语言学中Tone和Frames等理论分析文本研究媒体和政治之间的联系。她结合了心理学、新闻学以及计算机科学等多个学科的理论,这可能也是大会想要传递的一个信息:鼓励大家对语言学理论以及其他学科的运用。

另外一场讲座则是由著名的Combinatory Categorial Grammar (CCG)的发明人之一,英国爱丁堡大学的Mark Steedman教授带来的“On Distributional Semantics”,场面相当火爆。他回顾了目前基于词汇的表面意思或者隐含意思这两大类构造分布式语义的方法,以及在QA,机器翻译等的一些应用,整个介绍十分完整,同时他指出,语义任务中要解决的最难问题不是逻辑运算,而是在同一语义下能表达的语言是多变的,“如何定义内容(content)并使之能够支持逻辑运算和常识推理”是关键。进而,教授讲述了他们在语义逻辑表达概率化方面的一些相关工作。(讲义链接http://homepages.inf.ed.ac.uk/steedman/papers/semantics/acl16a.pdf)

海报展示(一)

海报展示(二)

另外,组委会还根据不同的话题,安排了总共44场报告。其中,至少被安排了两场报告的主题包括,Parsing(4场),Word Vector(3场),Machine Translation(3场),Word Meaning(2场),Question Answering(2场),Semantic Parsing(2场)。 本次大会所有的报告均在洪堡大学的校园内的阶梯教室进行,其中Audimax和Kinosaal是两个可以容纳听众最多的两个。Word Vectors, Semantic Parsing, 以及Question Answering的报告均被安排在了这两个大厅中进行。我们多多少少可以从组委会对于报告的安排,一窥当前自然语言处理领域的热点话题。

会议的重磅新闻之一就是终身成就奖的颁发,得奖者是斯坦福大学的教授Joan Bresnan。谈起她,可能最多人提起的应该是她在70年代定义了一种语法框架,LFG(lexical functional grammar),强调结构对语言的重要性,提出了句法结构、参数结构、形态结构等,成为了许多机器翻译工具的理论基础。她的得奖感言主题是:Linguistics: The Garden and the Bush。这个题目十分形象地体现了她的工作: 在真实场景下语言并不像花园那样可以单纯用理论去刻画,而是像灌木丛那样,因此她把统计的方法引入到语言学研究。

会议挑选了十篇outstanding论文,deep learning相关的占了绝大部分。而今年大会的最佳论文奖并非任何一篇关于深度学习的文章,而是一篇讨论符号语义性的文章——来自加州大学伯克利分校E. Dario Gutierrez的工作Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression。该论文主要研究词形式和词义之间是否有联系的问题(比如一些url结尾的单词curl,furl等都与”卷曲”的意思相关)。论文的贡献在于,从全局更好的找到从词形式到词义的映射关系,通过实验分析对之前不同工作得出的不同结论做了一个解释和统一。作者用很简单直观的统计学习模型解决十分纯粹的morphology形态学问题,加上对这个任务的一个分析总结,逻辑十分清晰,读起来十分舒服。

大会的最佳学生论文奖授予了剑桥大学Steve Young组的Pei-Hao Su。他们的论文On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems,提出了一个在线学习框架,可以显著减少在语音对话系统中使用强化学习所需的数据标注量,并减弱用户反馈中数据噪音对于对话系统策略学习的影响。

微软在ACL

微软有20多位研究员参加了ACL 2016,是本次大会上一个最为重要的研究团队之一。微软研究院的首席研究员Bill Dolan第一时间在他的博客上发布了题为“Microsoft NLP researchers converge at ACL 2016, edging ever closer to human-like conversational experiences”的博客 (原文请见: https://www.microsoft.com/en-us/research/microsoft-nlp-researchers-converge-acl-2016-edging-ever-closer-human-like-conversational-experiences ),博文介绍了微软研究院本次大会的与会情况。根据Bill的统计,本次微软研究院共为与会者带来了1个Tutorial,2个workshop,以及17篇被录用的论文。下面我从中选了一些我们亲身参加了的部分,为大家详细介绍一下:

其中的一场Tutorial (Understanding Short Texts)是由微软亚洲研究院的王仲远以及前微软亚洲研究院研究员王海勋共同讲解的。仲远通过数据说明了短文本分析在大量互联网应用中的重要性,分析了短文本理解中的一些特点与挑战,并介绍了多种基于知识库的显示表达模型及应用(Knowledge Based Explicit Representation Models)。 而海勋则从隐式表达模型的角度对短文本分析进行了讲解,并做了最后的总结。(讲义链接:http://www.wangzhongyuan.com/tutorial/ACL2016/Understanding-Short-Texts/)

来自微软亚洲研究院的王仲远及前研究员王海勋正在共同讲解tutorial

ACL论文是如何写成的

黄丹青:

我们团队的工作是《How Well Do Computers Solve Math Word Problems? Large Scale Dataset Construction and Evaluation》。在计算机自动解数学题这个任务上,之前的工作都是基于一些小规模而且多样性不足的数学题集,我们认为这样得出来的结论可能不太有代表性。因此我们使用半自动的方法搜集标注了多达1万8千道小学数学题,并在此基础上对现有系统重新评估。从目前来看计算机的自动解题能力还是十分薄弱,接下来我们会专注于如何提高这种计算机的这种能力。

从定义任务,提出想法,到一步步完成论文的过程中,微软亚洲研究院的导师都给我了十分有用的帮助和指导。除了技术支持,他们更多的是教会了我如何更全面地思考分析问题,做每一步之前都要思考背后的motivation,如何严谨地论证每一个细节。我十分佩服他们对事情的洞察力以及对全局的把握能力。

这次收获很多,除了对自己相关工作有更多交流见解之外,还了解了其他领域最前线的发展方向,发现能借鉴的有很多。参加ACL让我感觉到,大家都怀着对学术的热情,踏实地专注于自己的研究,通过众人之力一步一步推动着计算机更好的发展。这让我能更沉下心来继续我往后的研究。

闫昭:

在本次ACL中,我们的文章DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents讲述了一种基于检索与排序直接从非结构化文档中选取句子作为聊天机器人回复的方法。以往的方法无论是基于检索的还是基于生成的,都会依赖大量的对话句对作为训练数据。而在给定领域的情况下,大量的对话语料是比较难以获得的,但普通的文本就容易获取的多。我们的方法现在已经运用于新一代的微软小冰跨平台商业解决方案之中,助力小冰的自主知识学习技能。

非常庆幸我参与了DocChat这个项目,参与了一个解决实际产品问题的全过程。从对问题的分解,模型的构建,到实验的验证,数据的分析,最后到论文的撰写,参与整个过程让我受益非凡。非常感谢我的mentor段楠研究员,以及NLC组所有的研究员和同学,感谢他们对我的帮助以及所营造的科研学习氛围。

近些年,自然语言处理在很多方面取得了非常快的发展,也衍生出了很多新的科学问题。参加这次大会,让我近距离的接触了这些最前沿的成果,让我有机会与NLP领域的同仁交流与学习。在我个人比较关心问答和对话系统领域,我听到了很多精彩的报告,这些带给了我许多关于未来研究方向的思考,更是激励我做好眼下研究工作的动力。

了解微软亚洲研究院实习生项目

作者介绍

黄丹青,是微软亚洲研究院实习生,本科毕业于中山大学,目前是中山大学和微软亚洲研究院联合培养博士生。她的研究兴趣为knowledge computing和question answering。

闫昭,是来自北京航空航天大学的同学,今年博三,在微软亚洲研究院NLC组已经实习了两年多了,他的研究兴趣是question answering和dialogue system。