分享到微博 分享到人人 分享到LinkedIn 分享到Email
探索机器学习中的数据科学

原文作者:原微软技术与研究部门合伙人数据科学架构师Mario Garzia

译者:杜红光

数据科学与“大数据”已经成为21世纪高科技产业的流行语。而“大数据”这个术语,在很多情况下是相对于我们收集、存储和处理数据的能力来说的。有关大数据的挑战并非新生事物,历史上也曾出现过一些著名的大数据使用案例。一个有趣的例子是美国人口普查, 1880年进行的美国人口普查,耗时8年才完成了全部的数据汇总。同时,由于人口膨胀的原因,当时人们预计完成1890年的人口普查要10年以上的时间。这就是当时的一个大数据问题。随后一个名为霍尔瑞斯的人的发明成功解决了这一难题。他的发明使得1890年美国人口普查在预算内不到一年即完成,而他创立的公司则是现在我们也耳熟能详的IBM。霍尔瑞斯通过开发新的有效的方式来收集和存储不断增多的数据量(穿孔卡片),利用电动制表机读取打孔卡,得出计算结果。在霍尔瑞斯博士那个时期的前后还有其他很多类似的大数据案例。

那么,今天大数据的挑战与以往有了哪些不同呢?

数据量的增长速度不断挑战着我们收集、存储和处理数据的能力,推动着新技术的发展。但是,现在数据的种类和我们收集数据的速度也都在不断的增加,并且这种趋势短期内并没有停下来的迹象。爱立信2011年的调查报告显示,预计到2020年,全球将会有将近500亿个连接设备。每一个设备都会生成各自的数据,此外,管理这些数据的收集和处理这些设备数据的系统又将产生更多的数据。另一个大的区别就是今天的大数据蕴藏着巨大的机遇,我们可以直接从每一个终端客户那里收集数据,了解用户体验或设备的服务水平,这在以前是不可能的。这使得我们可以运用全新的方式提供新的产品和前所未有的服务水平来使我们的用户满意,更好地了解用户现在需要的是什么,并预测他们在未来可能需要什么。迄今为止,高科技公司一直是数据领域的领头羊,对于它们来说很多时候数据本身就是产品,比如必应搜索和各大社交网站等;但当今世界的主要关注点是技术推动数据和其分析的民主化,以对整个人类活动有全方位的了解。所以现在不止是科技行业,传统行业和其他机构都能利用大数据优化其服务,用以满足其客户的需求。我们正处在一个令人激动的时代,曾经无法想象的东西现在通过数据和分析成为了可能。

早在“数据科学”和“大数据”广受关注前,微软一直就有根据数据做决策、驱动产品开发的传统。我在1997年加入微软,见证了它在数据领域的演变和成长。在微软工作对我最有吸引力的就是我可以和一群充满才华和激情的人一起工作,并向他们学习。在这里,不断学习、获取新知识和不断追求最好都是根深蒂固的文化。正因为如此,数据在微软一直发挥着重要作用,并在过去的十几年中不断演变和壮大。我们工作的重点,逐渐由“深入理解产品”转移到“深入理解产品的用户体验和服务”。

2000年,我来到了Windows团队,成立了Windows可靠性工作小组。从一开始Windows的可靠性就是由数据驱动的。例如,发布Windows Server 2000时,在微软内部生产服务器上,我们已经拥有大约100年的可靠的运行数据。在Windows Server 2000发布之后,我们对企业用户提供了免费的可靠性服务,企业可以通过它收集数据中心服务器的可靠性数据并上传到微软的服务器。这些数据之后会被自动分析,得到服务可用性和可靠性的结果,这些结果按服务类型和服务运行环境进行分类,在网站上提供给企业用户参考。在大多数情况下,这是这些公司第一次获取他们数据中心如此详尽的可靠性数据。Windows也可以通过这些数据,深入了解操作系统的可靠性和失效模式,为操作系统的新版本设置新的发布标准,并根据故障的频率和严重性优先驱动产品修复。我们还可以利用这些数据开发操作系统的新功能,比如系统中的诊断服务。数据驱动的方式帮助我们根据产品当前的运行状况做出何时可以发布新产品的决策。这些数据虽然深入且全面,但主要用于评估产品质量和为产品发布做准备。如今,Windows操作系统以及其他所有微软的产品和服务都不仅仅关注产品质量,而是更多的关注如何更好的理解用户需求。现在微软正在革新数据驱动的企业文化,对用户体验、参与度和用户需求更深入的理解同产品服务质量同等重要。数据带来的新见解将一直为微软的各类产品和服务带来新的、更强大的功能和提升。

数据驱动的文化是指对产品和用户数据的理解,这不仅仅是数据科学家的事情,在微软,每个人都需要对数据很敏感,并且学会使用数据处理问题。大数据用于对产品和服务的试验、改进,也被用于发布优化机器学习等技术的增强定制服务。必应必应广告完全是数据驱动的产品。从最初的贝叶斯网络和语音识别研究到现在的产品,如SQL Server数据挖掘,在过去二十年里微软在机器学习方面也拥有了宝贵的经验。我们现在提供给其他公司构建机器学习模型的服务,并将这些模型很容易地部署到微软的云服务Azure ML中。

作为微软的数据科学家,一个非常令人激动的事是可以接触到空前广泛的用户数据。这些数据来自计算机及平板电脑,还有手机、设备、游戏、搜索和大量的用户服务,包含着用户生活的各个方面,这能够使我们更好的理解用户需求和用户体验,并通过这些理解创造出全新的更有效的方式来影响用户的日常生活。数据科学原则应处在我们数据驱动企业策略的核心位置,在微软,我们对这点达成了共识,并拥有一个完整的工程师职业规划路线,数据科学家、机器学习科学家和应用科学家都可以进入到公司的高层。在整个公司,我们拥有很多的数据科学家小组,进而形成了一个充满活力并不断壮大的团队。我相信对于数据科学家而言没有比微软更好的地方了,这是他们学习、成长、收获快乐并创造辉煌的沃土。