分享到微博 分享到人人 分享到LinkedIn 分享到Email
微软发布Azure机器学习正式版

微软副总裁Joseph Sirosh

译者:谢深棣

Azure机器学习专为推广机器学习而生。我们希望通过它可以降低机器学习技术的操作门槛,使它为每个人所用。同支持开源创新、让大数据使学习能力有突破性的飞跃一样,支持社区驱动的开发、使得开发人员可以简便的创建云托管应用和各类API并将其商品化,是我们一直期望实现的重要目标。但更重要的是,我们希望机器学习能让用户在未来的数据科学领域如虎添翼。

现在,这份愿景已具雏形。在这个Strata和Hadoop随处可见的世界,我们正式发布了可实现云端完全托管服务的Azure机器学习正式版。无需下载软件,也无需管理服务器,你只需要打开浏览器,连接网络,就可以全面开启你的数据工作。这项颠覆性的创新,主要表现在以下几个方面:

极大简化了网络服务的创建

我们彻底改造了网络服务的创建流程,让数据工作流更加直观,几分钟内就可以实现网络服务分析的创建。我们还准备了一个即时的Excel客户端,方便用户导入自己的数据来测试网络服务。

通过API反复训练数据

本次发布中升级的新功能还包括可以利用新数据不断改进Azure机器学习的模型。此功能允许在获得更多新数据后对一个模型进行反复训练。同样也允许模型的其他用户使用自己的数据训练此模型。例如,当你在应用市场为用户创建一个API后,可以支持他们用不断更新的数据完善此模型。

支持Python与R语言

现在,你可以使用Python的Anaconda计算包,并直接从Azure机器学习平台中调用其丰富的科学计算模块库,如numpy,scipy,pandas及scikit-learn等。只需几次点击,Python开发者就能轻松建立复杂的分析实验及云端网络服务。R语言亦然。你甚至能在同一个工作流中混合使用Python、R和微软的各类机器学习算法。将这两种语言丰富的开源库结合起来,是所有致力于应用开发的创新者们一直梦寐以求的。

“大数据学习”成为现实

Azure机器学习现在支持Learning with Counts,这项颠覆性的特性可以对TB字节(百万兆)大小的数据集进行高效的分类和回归,还允许在Azure大数据服务HDInsight中使用并行分布式计算系统,从超大数据中获取代表性样本。凭借以上功能和样本,用户就能应用神经网络与增强决策树等最前沿的算法,训练高精度的预测模型。

包含众多成型网络服务的Azure商店

目前,我们已经在Azure商店中为常用的机器学习应用提供了一系列网络服务,如推荐、异常检测和文本分析等。任何网站、手机App或SaaS应用都可以通过几行简单的代码将这些功能整合到自己的产品中。这些都是由数据科学家们把他们创建的强大应用发布到Azure商店中的,而这也是切实参与新兴的大数据经济的良好范例。

全新的社区资源库

正式版新增的社区驱动资源库帮助开发者们发掘和分享彼此的灵感。在社区中,你可以提问、评论以及发布自己的实验,还可以将有趣的实验分享到LinkedIn和Twitter等社交网站。我们希望此社区能成为用户们入门Azure机器学习、互相学习的起点。

但Azure机器学习的亮点远不止上述这些。为了给云端大数据的入门者提供更好的获取路径,我们准备了详细的分步骤的用户指南,从原始数据处理到用户网络服务无所不包。此外,Azure机器学习配备了包括iPython Notebook和Python Tools for Visual Studio在内的有力工具。正式版还增加了数据读取和转换功能、SQLite模块、以及包括Quantile Regression在内的新算法。目前,整合了多样化工具的Azure机器学习可以说是市面上最全能的大数据和机器学习服务了。

我们的客户一直将Azure机器学习应用于各种不同的商业场景中。比如,挪威公司eSmart System就是将Azure应用于智能电网管理的先行者。传统的智能电网包括多种相互孤立的数据竖井,如SCADA网络、自动化系统和变电站仪表等。这样一来,损耗预测、用电瓶颈或中断的预防就变得十分困难。对公共事业公司来说,升级整个系统代价昂贵;即便对感应器或仪表进行升级,也还是很难自由读取它们产生的数据。eSmart System公司使用Azure云平台整合分析、预测用电数据,相当于整套解决方案的“大脑”,用来运行整套预测分析的数据模型。最终分析结果被用于预测电网负荷问题,并能自动控制每座大楼的用电量。

eSmart Systems公司首席策略官Sigurd Seteklev这样说道,“eSmart需要一套云解决方案来处理我们的海量数据,否则将需要大量的存储空间。我们也试过用Hadoop处理数据,但它对运行环境的要求还是很高。现在我们很高兴这一切基本都能通过Azure机器学习提供的服务来完成,我们也无需监测虚拟机的运行。”

Mendeley是我们另一个极具创新精神的客户。作为世界上最大的科研文献库之一,Mendeley 以全球化平台和社交网络推动科学探索和社区合作。为了完善用户体验,过去它一直在寻求对新用户的早期使用行为进行分析和预测。使用Azure机器学习服务仅仅两周,新模型较由他们自己耗时数月自主开发的模型,在精确度方面提升了30%。对于Mendeley而言,这不仅是模型的迭代以及部署效率三五倍的提高,更意味着公司在有效洞察用户需求方面的信心。

Mendeley首席技术官Fernando Fanton表示,“Azure机器学习给出了更好的自动化模型,相比之前的模型,从模型评估到配置完毕只用了过去三分之一的时间。它的可贵之处在于它是开放的,能通过广泛使用的REST和Hive等工具很轻松地整合数据。”

还有包括Booz Allen Hamilton、Cognizant Technology Solutions、Dell 和Infosys在内的上百个微软合作伙伴都在使用Azure机器学习平台,将创新的前沿分析解决方案提供给他们的客户。其中还有一些在为全球数据科学社区提供基于Azure的训练服务。

如果你还未直接体验过Azure机器学习的服务,我推荐你即刻开始使用目前发布的正式版。它完全免费开放,并且非常容易上手,无需信用卡也无需订阅Azure资讯。

我们始终坚信Azure机器学习所带来的改变是颠覆性的。未来将因数据优化带来的智能化见解而无限光明!