分享到微博 分享到人人 分享到LinkedIn 分享到Email
“大数据”上善若水 利万物而不争

作者:微软亚洲研究院副院长 张益肇博士

(本文已同期刊登在《高科技与产业化》杂志2016年2月号)

随着机器学习、人工智能等相关技术的局部突破,大数据应用的进展也开始有了些眉目。相比20世纪90年代一些老旧的数据挖掘技术,如今的大数据技术越来越成熟,已不可同日而语。

在大数据领域,微软正在做的研究从底层系统贯穿至最终应用,有些源于微软自身发展的需求,有些则是对业界需求的扩展,但目的都是为了让大数据技术和工具越来越易于使用,充分发挥大数据的魔力。而这跟微软早年间“每个人的桌上都有一台PC” 的愿景颇有异曲同工之妙。​

微软亚洲研究院副院长 张益肇博士​​​​

底层,突破数据存放和网络搭建的挑战

既然叫大数据,那么“大”正是其首要特点。数据太多一台服务器自然放不下,那就分布式地放到多台服务器上,那多台服务器之间该如何连接?连接之后又该如何确保传送效率和实时支撑呢?

这便有了SDNSoftware Defined Network的概念,它颠覆了传统网络搭建的逻辑,采用虚拟化技术,根据应用数据的不同使用方式,动态调整和分配资源,优化数据的存贮和转移。例如,Outlook不同用户对于电子邮件、图片、文件等数据的使用习惯、调用频率各不相同。据此,SDN技术可以为不同的用户群建立不同的虚拟网络,实现不同的资源配置,从而使得物理网络的能力被更加合理的利用。微软亚洲研究院利用FPGA技术实现SDN网络,不仅使得网络变得更高效、更智能,而且FPGA强大的平行处理能力更可以加速数据的处理。微软亚洲研究院的多项SDN和FPGA加速技术,已经或正在应用于Azure和必应(Bing)数据中心中。

 

中间层面,为机器学习算法提供支撑

机器学习和大数据技术的结合,使得很多应用模型在自动学习了大量数据之后变得更加准确和聪明。如人脸识别的算法模型,可以通过对其输入大量人脸图片,让其学习人脸特征,从而自动调整面部识别算法。

不过问题也随之而来,这种机器学习需要大量的运算。早些年同样的结果需要计算很久,甚至可能无果而终,因此微软推出了DMTK(DistributedMachine-Learning ToolKit,微软分布式机器学习工具包),开发人员只需要把机器学习算法同步分布到不同的服务器上,就不必再操心其他的事情,数据量大和计算量大这两个难题可同时解决。

而微软将DMTK贡献给开源社区,意味着机器学习在各个领域的应用将毫无门槛,大数据应用可以更为普及,更多的有志之士可以利用机器学习和大数据推动自己所在领域的智能化发展。

有了合适的工具,每个人都可以是专家

有了底层网络的支撑和中间层开发环境的支持,应用层简单易用的大数据工具则可以让更多的用户化身为大数据专家。只要采用合适的工具,针对性地开发或者使用相应算法,便能实现各有特色的大数据应用,充分享用大数据带来的价值。在这个层面,微软所提供的工具可谓各有千秋。

Power BI让市场经理更自由

多年前谈BI(Business Intelligence,商业智能),业内人士都知道其流程有多么复杂,首先是数据收集、清洗、转换,再进行多维分析和展现等等,每个环节都对应着复杂的工具。现在要想获得BI所带来的好处,只需要一个PowerBI即可PowerBI是微软推出的在线服务,通过powerbi.com能够让用户用最直观的方法对数据进行处理,例如查找和呈现数据、在线共享数据、团队协同合作等等。PowerBI为数据特别是表格数据提供了更为丰富多彩和自由的分析组合的可能性。对于市场经理来说,这意味着不用再求教于IT专业人员,自己用PowerBI就可以深入分析,怎样的市场行为可以带来更高的产品关注度和购买行为,而怎样的行为可能导致信誉危机等。

让数据科学家更专业

Azure Machine LearningAzure机器学习)是微软推出的云服务,它可以将机器学习与云计算相结合,通过历史数据去预测未来。该服务内置了很多业务场景的原始数据和机器学习模块及API,初学者可以从已有模块中掌握机器学习的技能;数据科学家可以结合自己的行业经验,充分利用云计算能力创建更加复杂的模型,进行数据分析,从而更加深入地理解所在行业的现状和趋势。

牛津计划支撑研发人员的开发

2015年微软推出的牛津计划(Project Oxford)不是要帮助研发人员成为大数据专家,而是帮助那些没有任何大数据和机器学习经验的开发者或开发团队,开发出更智能、交互更多样的人工智能应用。

微软牛津计划提供了一系列基于机器学习的技术服务,开发人员可以利用这些API设计、开发自己的应用,并在其中轻松添加如视觉、语音、人脸识别和语言理解等智能功能。微软的工程师基于牛津计划中的人脸识别API,仅用了几小时就开发出了How-Old.net(微软颜龄机器人)应用最初的演示版。

普及才是硬道理

所有的技术最终都是为了回归应用,造福用户。微软的使命就是让这个领域的前沿技术被越来越的人使用,越来越普及。所谓“上善若水,水利万物而不争”,大数据最终就应该是润物无声地去渗透和改变人们的生活。

在推动大数据终端应用方面,微软也做了相当多的工作。例如,微软亚洲研究院与环保部的合作,利用大数据技术预测72小时内空气质量并将预测精度细致到每平方公里;再如微软研发人员利用牛津计划中的API所做的寻找走失儿童的应用,以及作为微软人工智能代表的小冰、小娜等,都集中展现了微软在大数据应用领域的积累与探索。

从数据到技术,任重道远

相信很多人和我一样坚信大数据未来会改变世界这个观点,不过在现阶段它所面临的挑战也是实实在在的。

首先数据开放是个问题。在美国,很多数据源在逐步开放;中国的一些地方政府也已推出相应的数据开放举措。不过具体到执行层面,尤其在中国市场,拥有数据的权威机构能将数据开放到什么程度,如何能做到开放数据的同时又能保护隐私等,需要更长时间。

其次是数据如何分享。是免费使用,还是收费服务?如何合理分配数据的价值?数据使用过程中的监管、风险控制如何执行?这些问题也都尚无定论,其中有的需要行业专家建言献策,有的则需要国家的立法进行支持。

最后便是技术挑战。正如前文所说,数据量的增长速度目前已经大大超过了人类提升处理数据能力的速度。我们现在能够做到的大数据处理只是冰山一角,大多数的数据还在静静地等待技术的发展,以发现它们的更多价值为人们所用。

所以,未来我们需要依靠更多的智能助理去帮助提升大数据处理的效率,而其背后所基于的智能云平台,可以为之提供更加个性化、定制化的智能计算体验。例如根据你最近的心跳数据提醒你的运动或饮食;早上的起床闹钟会给同床的夫妻不同的设定;遇到雾霾天气不仅会提醒你戴口罩,还会在口罩快用完的时候自动下订单购买。最终,真正为人类带来便捷的智能体验,才是大数据的终极意义。