分享到微博 分享到人人 分享到LinkedIn 分享到Email
严谨与特色并行——WSDM 2015大会见闻记

钟文

于美国纽约州立大学-石溪分校

第8届ACM网络搜索与数据挖掘会(ACM International Conference on Web Search and Data Mining)今年在上海举办。我有机会与微软亚洲研究院袁晶师兄一同参加此次会议,并代表我们入选论文的作者进行发表,倍感荣幸。这篇论文是我和我的双胞胎弟弟钟元(论文的第一作者)大四时,在微软亚洲研究院谢幸老师社会与城市挖掘组实习期间完成的,这是我第一次参加高水平国际顶级学术会议。这次会议,无论从深度——深入了解网络搜索与数据挖掘领域研究的前沿,还是广度——接触了从学术界到工业界,从学术泰斗到和我一样的学术新人,甚至是对个人能力的提升以及对未来研究的规划,都使我受益匪浅。

特色的环节设置与丰富的学术演讲

WSDM非常重视论文质量——本届会议共收到238篇论文投稿,其中来自16个国家,44个科研机构的39篇文章入选,接收率仅为16.4% (比去年的18%又有所下降) 。

此次会议设置了包括主题报告、专题讲座、实践和经验报告、研讨会和冬令营等在内的多个环节。其中,实践和经验报告作为WSDM会议极具特色的环节,邀请了工业界优秀的研究人员讲解了他们的研究成果以及解决的实际问题。冬令营是本届会议新增环节,旨在为参会者尤其是学生介绍互联网搜索和数据挖掘相关基础理论和前沿科技,涵盖了深度学习、自然语言处理、社会网络、分布式机器学习等领域。

会议邀请加州大学伯克利分校的Michael Franklin教授讲解了开源软件伯克利数据分析堆栈(Berkeley Data Analytics Stack)的当前情况,包括GraphX图形处理系统和SampleClean混合人机清理框架等模块。总体来看,BSD系统更加完善,在数据分析方面也越来越有影响力;Facebook的Lada Adamic介绍了个体瀑布信息流的增长和扩张,以及社交网络中流言、迷因和社会运动等特征的传播和扩散特点;康奈尔大学的Thorsten Joachims教授做了用户交互学习的主题演讲。他认为,学习用户交互行为不仅仅限于机器学习算法,还要根据用户决策来理解、设计更加合适的交互方式。另外,会议还邀请了斯坦福大学的Jure Leskovec教授,谷歌公司的Tushar Chandra,以及百度、阿里巴巴和腾讯公司的朱凯华、金榕和卓居超,进行了实践和经验报告。

利用位置签到预测用户个人信息

我们在本届大会上所展示的论文是“利用位置签到预测用户个人信息”(You are where you go: Inferring Demographic Attributes from Location Check-ins)。以往关于用户个人信息预测的研究大多基于社交网络用户交互行为,例如:利用Facebook Likes行为、互联网浏览行为、Twitter回复转发行为等进行预测。这些研究取得了不错的结果,但是具有高度规律性、唯一性和可预测性的用户移动行为数据却一直被忽视了。在这篇论文中,我们提出建立基于用户位置签到行为的预测模型,以当下最流行的社交网络位置签到信息作为用户移动行为数据,来推断包括性别、年龄、教育背景等个人信息。我们证实了看似内容单一的社交网络用户移动行为数据其实可以很好地预测用户个人信息,达到很高的准确率。用户个人信息的预测在社交网络推荐、广告投放、用户关系预测和信息分享等方面都有着巨大的应用前景。

作为代表,我在 “用户移动性以及推荐建模”专场,进行了论文的正式报告。报告开篇,我通过举例——弟弟钟元经常在浪漫餐厅签到,而我经常在图书馆签到,推断出我俩各自情感状况。从而引出了我们的工作:利用用户位置签到历史数据来预测性别、年龄、教育背景、性取向等个人信息。然后,提出Location to profile (L2P)系统整体框架,主要包含:数据爬取、特征抽取、特征降维、预测四部分。

其中,数据爬取部分负责获得新浪微博用户签到数据和点评网用户点评数据;预测部分利用抽取的特征,进行用户个人信息预测。这是系统中相对简单的两部分,相较之下特征抽取和特征降维则是L2P系统核心部分。我们主要从新浪微博用户位置签到数据中抽取空间、时间特征,同时结合点评网用户点评数据抽取签到位置知识特征。对于空间特征,我们通过把签到位置按照交通路网结构进行空间划分来获得;对于时间特征,我们通过按照每周工作日和休息日,每天24小时进行时间划分来获得;对于最重要的签到位置知识特征,我们通过位置知识扩展(location knowledge enrichment) 过程来获得。具体来说,首先根据签到位置的地址、经纬度等信息跨数据集(cross domain)匹配微博签到位置和点评评论位置,继而利用高效的点评数据提取用户评论关键词,筛选出用户微博中有效的关键词并预测出用户对签到位置的评分,结合已知的签到位置类别信息,完成位置知识从点评到微博的整合。下一步,建立张量分解模型来把特征维度降低到适当维度,进而建立预测模型,来推断用户个人信息。

与微软再聚首

此次学术会议,极大地拓宽了我的研究视野,使我收获颇丰。能在这样的顶级会议上发表文章,与微软亚洲研究院对我和弟弟的培养密不可分。在微软,我们能够与世界上最优秀的计算机科学家一起做创造性的研究,获得细致的指导,这是在大多数高校和研究机构所无法想象的优越环境。恰恰是这种独一无二的氛围,让我们的研究能力有了质的飞跃。在此,我衷心地感谢微软亚洲研究院让我和弟弟有机会在大四实习阶段接触到最前沿的技术,发表了高质量的文章,这对我们未来的科研生活产生了极大的影响。

今年暑假,在美国东北大学攻读博士学位的弟弟钟元再次回到微软亚洲研究院做为期三个月的暑期实习生,相信他一定会更加努力地工作,取得更优异的成绩。