分享到微博 分享到人人 分享到LinkedIn 分享到Email
《微软亚洲研究院大数据系列讲座》干货大放送

引言:假期快来了,囤点儿大数据知识防寒御冷吧~

 

大数据时代已然到来,再不用大数据抢占先机你就out 了!趁春节假期,赶紧囤点儿大数据干货以备来年之需吧!

大数据研究权威课程《微软亚洲研究院大数据系列讲座》由微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文领衔,微软亚洲研究院大数据研究各领域研究员授课,课程涵盖城市计算、社会计算、互联网搜索、可视化、软件分析等前沿领域,在线课程于2015年10月上线,至今已有超过四万人选修。

1月8日,《微软亚洲研究院大数据系列讲座》MOOC线下交流会在微软亚太研发集团北京中关村园区举行,来自全国各地的120余位大数据学习者来到现场,与微软大数据领域的专家们零距离交流,干货满满,收获颇丰。

 

错过了线下交流会同学们也不要伤心,以下是小编整理的Q&A环节问答干货,接好咯~

 

郑宇 微软亚洲研究院主管研究员

主讲《城市计算中的大数据研究》

 

“大数据”研究中的海量数据如何取得?

以我们做的城市计算领域的研究为例,我们的数据主要来自于三个渠道:首先是微软自有数据,比如通过bing地图获取地理信息方面的数据;其次是公开数据,比如政府公开发布的气象、空气质量等有关数据;第三则是行业合作提供的数据,但前提是你要先利用前两种数据做出一定的成果和模型,再去和行业谈合作,这样才有可能拿到你所需要的行业数据。

 

大数据研究苦于“数据不够”怎么办?

我认为现在的大数据研究并不存在“数据不够”的问题,恰恰相反是”数据太多”。人们常常抱怨数据不够,很大程度上是因为做大数据研究的观念还停留在过去,其实假如你要研究领域A的问题,不是一定只用A的数据,还可以用领域B或者C的数据。举例来看,比如做纽约市噪音污染的问题,我们第一个想法就是用声音传感器去测噪音的分贝,但这个数据很难获得。但是通过纽约市民311投诉电话中关于噪音投诉的数据,你就可以根据哪个区域收到的投诉电话最多、投诉理由是什么,推出城市中噪音源类型和噪音污染强度的分布。此外还可以利用社交媒体的数据,这样就可以很好的解决对于城市噪音的研究。

 

一名优秀的数据科学家应该具备怎样的能力?

我认为一个优秀的数据科学家是站在云平台上看问题、想数据、关联模型、把模型有机的组合起来,部署在平台上不停的运作,产生鲜活的知识,最终服务于行业。

 

微软亚洲研究院主管研究员:郑宇(左)、宋睿华(右)

 

宋睿华 微软亚洲研究院主管研究员

主讲《互联网搜索中的大数据研究》

 

目前大数据研究在互联网搜索中地位举足轻重,在未来,大数据研究又会有怎样的趋势呢?

我认为未来互联网搜索中大数据研究会有两大趋势:

1、以搜索为工具,索引大数据,挖掘新知识:现在搜索既然可以把海量的数据索引起来,那么就可以从这些数据中挖掘中一些有用的知识。比如我们给出一个“手表”的关键词,我们从搜索结果的列表里发现一些知识,比如有一个list是关于手表品牌的,而且是以品牌的影响力排序的;把搜索作为工具,在大数据时代,无论是哪个领域的数据,都可以把它们索引起来,然后从大数据中挖掘出新知识。

2、大数据时代的“大语料”优化传统信息检索;其实互联网搜索是“信息检索”中最简单的一个领域,因为互联网上同样的信息有很多份,同时会有很有辅助信息(网站品牌、网站访问量),这样的话搜索本身就变得简单了,因此大家会觉得搜索的效果还不错,输入的关键词不用那么精确也可以得到很好的结果。但是当你的搜索范围不是那么广的时候,并不在互联网这种范围的时候,比如你之前在朋友圈看到某文章,某天要搜索的时候,已经记不清内容了,这时候你的查询词和文章的词可能并不匹配,但是意义是一样的,这时候传统的搜索的局限性就凸显出来。因此大数据时代,可以利用“大语料”让这些“意义相似但长相不同的”词联系起来,优化传统的信息搜索,缩短查询词和文本词之间的gap。

 

大数据的发展是否会对用户隐私造成威胁呢?

一方面,大数据的研究确实会有侵犯隐私的风险,比如很多人在网购时候其实是不希望别人知道自己买了什么的,因此购物网站往往都有“匿名购买”的选项;但另一方面,大数据中对于个人信息的采集可以为用户提供更好的定制服务,比如在线购物的“推荐算法”,就是基于其他用户的购买记录数据形成的,这又恰恰方便了人们的网购;因此,对于个人信息的采用需要把握好其中的尺度,在不侵犯人隐私的前提下为用户提供更好的服务。

 

谢幸 微软亚洲研究院资深研究员

主讲《社会计算中的大数据研究》

 

大数据时代如何区分“垃圾数据”和“有用数据”?

在我看来,“垃圾数据”和“有用数据”是相对而言的。对于数据拥有者来说,很多数据看起来真的没什么用途,存储起来只是浪费硬盘空间而已;但对于需要这些数据来做研究做产品的人来说,这些数据是非常有用的。比如之前我们做的关于”出租车“的数据,这些出租车的数据在数据拥有者那边是定期删除的,因为这个数据在他们看来真的没什么用,但是对于我们研究来说,这些数据可以拿来做很多东西,比如城市规划、交通管理、用户出行规律挖掘和地点推荐等等。

同时,正是因为数据拥有方和数据需求方在数据有用与否上的不同理解,给大数据研究带来一些麻烦。当你真正需要一个数据的时候,这个数据可能已经被人删减过了,那些删减的部分虽然看似没什么用,但对大数据研究来说却仍然是非常有价值的。

 

如何选择和确定自己的研究方向?

就我自身而言,我的研究方向也经历过几次变换。我在学校的时候做的是做随机算法方面的研究,进入微软亚洲研究院后一开始做过一些多媒体内容分析,后来做了一些关于位置数据的分析,现在又做城市计算方面的研究。我觉得选择自己的研究方向主要有两点:第一,你自己对这个方向是否感兴趣;第二,你所做研究的应用是否重要是否真正对社会有用。

 

微软亚洲研究院资深研究员谢幸(左)、主管研究员刘世霞(右)

 

刘世霞 微软亚洲研究院主管研究员

主讲《大数据分析可视化研究》

 

对于希望进入大数据研究领域的同学们有怎样的建议?

扎实的数学基础和良好的逻辑思维受益终身:我本科是学计算数学的,我非常受益于我曾接受过的数学专业训练。正如洪小文院长所说,微软亚洲研究院招技术实习生主要有三条标准:逻辑思维好、编程好、态度好。良好的数学基础会给你带来非常清晰和强大的逻辑思维能力,无论是研究、开发、管理还是其他事情,你都可以很好的胜任。如今社会竞争更加激烈、学生的就业压力更大,可能很多学生更看重结果而不是过程,但我还是建议大家把数学基础打好。一个数学基础好的程序员,编写出的程序在逻辑性、可用性上都要比其他人胜出一筹。

 

《微软亚洲研究院大数据课程系列讲座》目前在学堂在线、爱课程、好大学在线三大平台开放选课,点击“阅读原文”,加入浩浩荡荡的大数据进击军团吧~

这门课程涵盖了互联网搜索、城市计算、社会计算、软件分析、可视化等大数据研究中的热门和前沿领域,课程设计兼具前所未有的广度和深度,我真诚地推荐所有对大数据研究感兴趣的同学去学习这门课程。This will absolutely change your life!” —— 姚期智院士(图灵奖得主、清华大学教授)

图灵奖得主、清华大学教授姚期智院士课程介绍:

http://v.youku.com/v_show/id_XMTM2NDQ1MzYxMg==.html

阅读原文:http://www.msra.cn/zh-cn/connections/course/big-data-lecture/default.aspx