分享到微博 分享到人人 分享到LinkedIn 分享到Email
天天都在说大数据,到底什么样的人才好找工作?

图片来自123rf.com.cn 正版图片库

今天,不管你从事哪个行业,一定都知道大数据这个概念。但是,大数据究竟是什么?计算机等相关行业的从业人员和学习者该何在这里抢占先机?

作为大数据研究的权威机构,微软亚洲研究院及时推出了MOOC课程《微软亚洲研究院大数据系列讲座》,由洪小文、宋睿华、谢幸、郑宇、张洪宇、刘世霞六位业界专家主讲。这套讲座原本只对清华大学研究生开放,在广大师生的要求下,微软亚洲研究院将其制作成MOOC,对全社会开放。自2015年10月以来,课程分别在中国大学MOOC(爱课程)、学堂在线和好大学在线(CNMOOC)上线。截至2016年1月,已有4万学习者注册学习。

这门课程既整体概括了大数据的研究现状及未来发展趋势,也具体探讨了大数据技术在互联网搜索、社会计算、城市计算、软件分析、数据可视化等领域的应用。这既是一门高屋建瓴的大数据导论课程,又是一门深刻具体的大数据技术实践课程。

为了让学习者们与教师进行进一步的交流,微软亚洲研究院委托MOOC学院和中国大学MOOC邀请组织学习者们于1月8日来研究院参观。课程负责人刘康平将这次活动称为“O2O式MOOC交流会”。

微软全球资深副总裁、微软亚洲研究院院长洪小文首先对课程主题“大数据”作了整体介绍,以微软的产品为实例,深入浅出地讲解大数据、云计算、人工智能、机器学习等学科的应用。在新的大数据时代背景下,洪院长还介绍了数据科学中新的算法、思维、创意,以及新的数据科学所带来的变化:就业市场下催生了诸如数据科学家、数据分析师这类新型职业;在学术界也产生了新的数据科学研究中心;新的研究和产品之间的距离越来越近。洪院长强调,现今无论何种职业,数据分析的概念和思维会越来越重要。

很多学习者都关心这样一个问题:怎么样才能成功申请微软亚洲研究院实习生岗位?洪院长表示,他们所看重的素质主要包括良好的逻辑思维、解决问题的能力以及扎实的数学和编程基础,同时认真的学习态度和优秀的学习能力也很重要。

微软全球资深副总裁、微软亚洲研究院院长洪小文博士

在提问环节中,学习者针对课程、科研、工作、生活提出了许多思辨问题。摘取部分问答如下。

问:互联网搜索已经产生了二十多年,而大数据是最近才热起来的,互联网搜索算不算大数据?

宋睿华:大家每天在工作和学习中都要用到搜索引擎,很多你关心的数据、感兴趣的东西都能在网络上找到。其实Hadoop 等技术的应用最初都来自于搜索,我们认为搜索是大数据的一个最直接的应用。

问:进行大数据研究的时候,如何获取所需的数据?

郑宇:以我们做的城市计算领域的研究为例,首先是微软自有数据,例如通过必应(Bing)地图获取地理信息方面的数据;其次是公开数据,比如政府公开发布的气象、空气质量等有关数据;第三则是行业合作提供的数据,但前提是你得用前两种数据做出一定的模型成果,再去和行业谈合作,这样才有可能拿到你想要的数据。也可以购买数据。

其实,现在的问题并不是数据不够,而是数据太多。人们常常抱怨数据不够,这很大程度上是因为观念仍停留在过去。但其实要研究领域A的问题,并不一定只用A的数据,也可以使用与之关联的领域B、C的数据,一个领域的问题其实可以用其他领域的数据来解决。

郑宇老师及宋睿华老师

问:机器人的情感计算该如何实现?

谢幸:我个人认为机器是没有情感的,程序也是没有情感的。程序和神经网络是可预测的,但人的情感变化难以预测。也许只有能够真正理解人的情感,我们才能发展出机器人的情感。

问:大数据领域会不会有数据的垃圾?

刘世霞:导师对我说过,没有不好的技术,只有不好的应用。我把这个套到数据领域,就是“没有不好的数据,只有不恰当的应用”。对于一个具体的问题来说,不是所有的数据都是有价值的,需要挖掘出对应用有用的数据。

谢幸:真正处理或者拥有数据的人可能实际上并不在乎数据。很多数据收集的时候目的并不是为了研究,而是过后才发现它的价值。但是这种数据有一个问题,就是可能会缺失一些有价值的信息。

谢幸老师及刘世霞老师

提问环节结束后,微软向学习者们介绍了实习生项目,并带领大家参观微软公司,感受大数据前沿研究氛围。

活动过后,MOOC学院特别采访了各位老师,针对课程设计、大数据行业和其他学习者关心的问题展开讨论。

MOOC学院:为什么要把原来面向清华大学研究生的课程制成MOOC?这门课适合哪些学习者?

刘康平:清华课程有选课容量限制,制作成MOOC可以与更多的高校师生分享微软亚洲研究院在大数据应用研究方面的最新成果。在清华授课有固定的时间,有些学生很忙,希望他们可以借由MOOC,用零散的时间来学习感兴趣的知识。这门课程适合有一定计算机基础的高年级本科生或研究生学习。

宋睿华:微软亚洲研究院其实在很多高校都应邀开设相关课程,但是和MOOC结合之后可以学习的人会大大增加,所有感兴趣的同学都能在这里获得支持。

MOOC学院:大数据知识在哪些行业有前景?如果想要以大数据作为未来工作方向,需要学习哪些基础知识?

谢幸:至少现在,涉及到大数据的公司非常多。我们的搜索引擎就是纯粹用大数据驱动的。微软的小娜也会更依赖用户数据,去发现用户的需求和兴趣,主动地提供服务。对电商来说,大数据也非常重要,大数据能够帮助他们更好地了解用户的需求,推荐可能感兴趣的商品。像社交网络,多媒体,人脸识别,图像分析等技术,至少现在很多互联网公司都是需要的。很多传统行业也都可能会通过大数据来实现更精准的服务,比如大数据可以让保险公司、汽车厂商更了解用户。

宋睿华:搜索是完全依赖于大数据的。很多公司依靠广告来获得收入,需要通过大数据来判断用户兴趣,这是一个有巨大产值的行业。大数据不过是一个帽子,下面的基石是数据挖掘、机器学习、可视化等方面,在找工作的时候可以满足很多公司的需求。

MOOC学院:现在大数据的应用已经比较普遍了,那么作为用户,我们该如何保护好自己的隐私?互联网公司该如何通过技术手段,在利用大数据的同时保护好用户的隐私?

谢幸:隐私保护和用户理解就像矛和盾。现在的互联网基本上用广告模式提供免费服务。以往收费服务是必须保护用户隐私和去广告的。现在相当于用一部分的隐私换取了免费服务,对用户是一种平衡。付费去广告也是一种选择,或许这样还可以保护自己的数据。

怎样更好地保护用户隐私?这不光是一个技术问题,也是道德和法律问题。完全靠技术是不太可能的。我们看到一些研究,把用户的位置数据放到一起。虽然理论上只要去掉姓名电话号码等数据就不能识别,但实际上仍只要统计四个去过的地点就能找出用户。因此没有任何严格的方法能够对数据脱敏。

用户自己要意识到这一点。我的数据会和其他方面的数据相交,并且产生某些交集,产生可识别的真实身份信息。完全依靠用户教育对用户的负担太大,还是要从法律和道德约束。 用一些非技术的角度更好地规范。研究人员也在研究怎样更好地保护用户隐私。

MOOC学院:为了适应大数据时代所带来的变化,您对传统职业者有何建议?

刘世霞:对于大数据的分析,常常需要结合学科的知识和技术。以大数据可视化为例,在大数据应用中,不仅需要展现原始数据,更多时候,可视化技术需要和各种挖掘技术紧密结合,从而帮助用户更好地理解和分析他的数据。由此可见,在大数据时代,需要大家了解的学科更加多一些。所以除了自己的从业领域,最好能多了解大数据相关的其他学科。然而要求每个人什么都知道,会导致每个学科掌握的都不够深,就是我们常说的样样通、样样松。因此,大数据时代更多的时候需要的是精通一个主要学科,并了解相关学科的从业人员。这就需要我们和相关学科的同事或者研究人员一起合作,共同完成大数据的分析。为了更好的合作,最好了解他们学科的基本知识及发展动态。能成为这个学科的专家固然好。如果不能,尽量多了解相关学科的最新发展动态,知道相关方向的主要专家和他们的特长。因此,在大数据时代,需要从业人员深入钻研自己的学科,同时做到眼观六路,耳听八方,看看有哪些技术能够为你所用。这个相对来说可能比较重要。

MOOC学院:大数据技术在治理雾霾问题上有何意义?

郑宇:主要分为三步。一是用各种大数据搞清楚现状,推断城市中每一个角落的空气质量;二是预测各个站点未来48小时的空气状况,可以精确到站点,最大值和最小值预报,空间和时间;三是因果分析,比如研究是什么原因导致了雾霾,研究不同城市不同站点的传播关系,研究污染物怎么传播,怎么影响,表达出过程等等。这三个步骤实际上就对应了当前、未来和过去。

最后,课程负责人刘康平还透露,微软亚洲研究院将在2016年春季上线第二期课程。第二期课程将增加随堂测验、主题讨论和课程大作业等元素,以便给学习者更好的慕课体验。

本次活动由微软亚洲研究院、MOOC学院和中国大学MOOC联合举办。