分享到微博 分享到人人 分享到LinkedIn 分享到Email
微软“机器学习”系列文章

机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具备智能的根本途径,其应用遍及人工智能的各个领域。

多年来,微软一直专注于机器学习的研究,并将机器学习广泛应用到产品和服务中,取得了一系列的显著成果。微软的人工智能助力小冰在机器学习技术的帮助下,具备了情景对话的能力,并且能够识别狗的种类以及进行简单的自述;同样,得益于机器学习技术的进步,微软最新发布的Skype Translator中文预览版实现了实时的中英文语音翻译。在企业服务方面,微软希望能够将更多的机器学习技术运用到Azure中,帮助企业从每天生成的海量大数据中探寻规律和模式,更好的控制成本,实现收益增长。

为了让大家更多的了解机器学习的相关技术,看到它在我们生活各方面的应用,微软亚洲研究院与译言网合作,对发表在微软机器学习博客的文章进行筛选、翻译,分享微软在机器学习领域的领先成果和最新突破。

欢迎大家的持续关注!

文章赏析

机器学习在微软

机器学习是能够将数据集转换成软件的组件,它可以把现有数据集推广到新数据进行预测。目前机器学习已应用到数据挖掘、人工智能、统计工程等领域。在微软,它更是被广泛应用到了如必应搜索引擎的创建、计算机视觉和语音识别等各项技术中。

机器学习中的乐趣与挑战

机器学习在企业应用中的巨大潜力鲜有人知。我非常幸运,在第一份工作开始的几个月时间里,就逐渐体会到了它的魅力。二十年来,我便不断见证着机器学习在不同领域的应用中大放异彩,例如需求预测,故障和异常事件检测,广告对象预测,在线推荐,以及像微软小娜(Cortana)一类的虚拟助手的诞生。在企业的系统中嵌入机器学习,可以改善企业的客户体验,降低系统故障风险,从而实现收益增长、有效节省开支的目标。

当机器学习遇到计算机视觉——上篇

计算机视觉在上一个世纪60年代脱胎于人工智能与认知神经科学,旨在通过设计算法来让计算机自动理解图像的内容。对于计算机来说,一张图片仅仅是由三原色(红、绿、蓝)像素组成的格子,三原色中每一个颜色通道的值在0到255之间变化组合后等到不同的颜色和图像。这些值若发生根本性改变,不仅依赖于事物对象是否在图片中呈现,也依赖于一些干扰事件,比如摄像机的视角、光线条件、背景和对象的形态。

当机器学习遇到计算机视觉——下篇

在过去的几年里,我们视觉领域的研究者们所使用的测试数据集,无论在质量上还是数量上,都实现了飞跃。这些进步在很大程度得益于众包,使数据集达到了百万张已标记图像的规模。其中一个最具挑战性的测试数据集ImageNet,目前已包含几百万张由数万种不同图像分类标签标注的图片。多年来ImageNet测试数据集识别工作进展较缓的局面终于在2012年被Krizhevsky等人的成果所打破。从那以后,“深度学习”成为了计算机视觉领域一个非常热门的话题。

机器学习与文本分析

文本分析一直是科学研究的活跃领域之一,在未来仍将受到持续的关注。毕竟,以文本的形式来创建一个人类所有知识的语义模型绝非易事。追溯到上个世纪90年代,早期的研究如Brill标记技术 (Brill taggers)虽已可以确定句子中的词类,但这仅为之后的研究起到了一个提示作用。微软研究院一直在这项领域内积极的创造各种新思路,更出于对实用性的考量,将重点放在了与创造新的产品级技术相匹配的科学研究。本文中,我们将为您简要阐述机器学习是如何基于命名实体识别技术(NER,Named Entity Recognition),应用于文本分析的。NER技术主要用于确定文本中所提及的人、场所、组织、运动团队等对象。

Azure机器学习平台的扩展与R语言支持

近年来, R语言和Python的开发工具和程序包在机器学习中得到了广泛应用。但这些工具和程序包就像一个个孤岛,基本没有相互协作。而Azure机器学习服务就是这样一个可以混合匹配不同的编程语言和程序框架来解决问题的平台,真正实现“云环境下的智能”。如此一来,现有机器学习从业者所积累的技巧、代码和脚本都能直接转移到Azure机器学习平台上,并可以畅通无阻地操作平台上的内容。目前,Azure机器学习平台已经可以全面实现与R语言的无缝衔接。我们的工程师团队也正全力以赴地,使Azure机器学习对Python也能提供类似R语言的扩展支持。

Azure机器学习平台的合作伙伴如何为客户开辟新天地

机器学习的成功应用通常不仅需要出色的工具,也需要各领域内扎实的专业知识、对获取的客户数据深度理解,以及整合客户软件解决方案的经验。Azure机器学习平台自发布以来,始终致力于为合作伙伴搭建一个全托管的云平台,用他们在数据分析方面和垂直领域专业的优势,为顾客快速提供全新的企业级预测分析解决方案。我们始终与我们的合作伙伴一起,致力于帮助客户将数据转化为可执行的商业洞察力,并为云托管的机器学习解决方案开拓出一条道路。

机器学习在行业应用中的案例研究

近年来,随着人们对机器学习兴趣的高涨和它在各行业的广泛应用,无论是从实际角度出发,还是从算法架构本身,都是我们探讨机器学习运作蓝图的大好时机。而如何提高网页搜索结果的相关性是相关研究人员多年来一直在探索的问题。本文微软研究院首席研究经理Chris Burges为我们介绍了微软是如何利用机器学习技术,开发了RankNet系统和提高决策树(Boosted Decision Trees)模型, 并成功将其应用于必应搜索,在提高搜索结果相关性的同时也加快了数据的处理速度。

Azure机器学习让卡内基梅隆大学变得更节能

建筑物往往都是由多个系统共同维持运转的,如供暖、制冷、照明、通风、安保等,这些系统也都影响着居住者的舒适体验和能源消耗。传统上来说,每个系统都有着它们自己的传感器、制动器和其他的元件,它们之间相互配合为所服务的系统、收集分析其所需的数据。因为这种独立的建筑管理方式,使得我们从未对建筑的运转效率有一个全面宏观的认识,进而能源使用和浪费情况的预测则充满挑战性。日前,卡内基梅隆大学建筑效能与诊断中心联合OSIsoft在Microsoft Azure机器学习平台上开发了一套预测建筑能源消耗的系统。快速实现了通过实时预测能源消耗模式、发现错误并及时响应来达到节能的目标,进而提高了建筑能源的使用效率,节省了开支。

推荐无处不在

在日常生活中无论是寻找符合自己口味的书和电影,还是在社交网络上寻找志同道合的朋友,我们总是在寻求好的建议,希望得到适合自己的推荐。而自动推荐系统总是你寻求建议的好选择。微软的机器学习模型,在整合了两种强大的评级预测范例——基于内容的过滤和协同过滤后,让推荐系统预测每个用户对特定产品的评分变得更加准确;而Azure机器学习平台的发布使得个人和企业都可以使用自动推荐系统,使更多人从中获益。

分布式云端机器学习

如今,随着各类企业数据量的剧增,建立起以分布式计算处理分布式数据的机器学习方案变得十分必要。微软云信息服务实验室的研究员们针对分布式运算的关键瓶颈——运算与通信宽带的巨大比例差问题,提出了可以大大减少迭代数量的解决方案。此外,针对在云端上使用分布式ML的用户拥有不同需求的问题,微软也在集中研究一个能够选择合适算法和参数设定的自动程序。

探索机器学习中的数据科学

数据科学与“大数据”已经成为21世纪高科技产业的流行语,也是机器学习中非常重要的组成部分。数据量的增长速度不断挑战着我们收集、存储和处理数据的能力,推动着新技术的发展。数据在微软一直发挥着重要作用,并在过去的十几年中不断演变和壮大。我们工作的重点,逐渐由“深入理解产品”转移到对“深入理解产品的用户体验和服务”。数据科学原则一直处在微软数据驱动企业策略的核心位置,微软拥有很多的数据科学家小组,进而形成了一个充满活力并不断壮大的团队。微软一直是数据科学家们学习、成长、收获快乐并创造辉煌的沃土。

数据无处不在,Azure机器学习让工作生活更加美好

数据,可以帮助企业预估未来趋势,如员工离职率或写字楼的能源需求等;数据,可以为健身房找出留住会员的续约优惠最佳发布时间点;数据,可以让鞋业公司知道哪些货品需要补货,而哪些需要清仓。聪明灵活地使用数据,能让这个世界大有不同。这正是机器学习的用武之处。机器学习就是通过观察历史数据模式,对未来进行预测。它基于过去和现在,放眼未来,你将不必再依赖后视镜,而是直接向前看。微软Azure机器学习帮助企业和组织更好地利用海量的数据。在Azure数据市场可以购买到针对具体问题的应用包,如预测API,它们能利用获得的信息直接生成企业战略以改善问题。

Azure机器学习——在购物前就知道你的购物清单!

近日,英国最大的食品递送服务公司之一的JJ食品服务公司与微软合作,利用其丰富的客户数据资源,在Azure机器学习平台上训练出了高质量、个性化的商品预测推荐模型。除了预测购物单以外,客户还能获得其他更多与已购商品相关的、可能需要的推荐。另外,Azure机器学习的商品推荐系统还可以为新顾客推送与之类似的客户购买过的商品,为他们节约宝贵的时间,以免将首次购物体验浪费在浏览新目录以及编辑订单上。通过展示这种直接价值使得新客户眼前一亮。“微软Azure机器学习让我们的自动化流程变得更聪明。” JJ的首席运营官Mushtaque Ahmed如此评价道。

微软发布Azure机器学习正式版

2015年初,微软发布了可实现云端完全托管服务的Azure机器学习正式版。无需下载软件,也无需管理服务器,只需要打开浏览器,连接网络,就可以全面开启数据工作。正式版微软Azure机器学习平台通过简化网络服务创建、整合各类机器学习算法、用不断更新的数据反复训练模型等功能,在速度和精度上实现了数据分析和商业预测的颠覆性改变。同时,它降低了机器学习的操作门槛,使其能为更多人所用,让更多用户在数据科学领域如虎添翼。