分享到微博 分享到人人 分享到LinkedIn 分享到Email
方兴未艾的云计算:SoCC 2015大会

ACM 云计算研讨会(ACM Symposium on Cloud Computing, 以下简称SoCC)是由SIGMOD(Special Interest Group on Management of Data,数据管理专业组)和SIGOPS(Special Interest Group on Operating Systems操作系统专业组)共同举办的旨在讨论云计算相关领域研究的学术会议。云计算本就是一个新兴领域,而SoCC也是一个年轻的会议,虽然至今只举办了6届,但是已经发展成为云计算领域的顶级会议。在云计算的学术界研究和工业界应用不断升温的今天, SoCC讨论的问题既包括学术界的科研前沿,也包括工业界的生产实践,因此SoCC大会也受到越来越多的关注。今年的SoCC 来到了美国夏威夷,这个以火山闻名于世的大岛。

跟SOSP(ACM Symposium on Operating Systems Principles)和OSDI(Operating Systems Design and Implementation)这样的系统领域盛会不同,SoCC至今仍是一个“小而精”的会议,本届SoCC仅有三十几篇论文和约130位参会者。这其中有62个参会者是学生,会议资助的学生有35个,超过半数,这都给这些云计算领域研究的先锋者们提供了更多相互交流的机会。值得一提的是,在会议的第二天,主办委员会还安排了一次Student/Mentor Luncheon,一个研究员和4个学生坐在同一张桌上吃饭,让学生们可以和这些学术圈大牛们近距离搭讪,讨论一些除了大会paper之外的的学术以及人生问题。

脑力激荡的特邀报告

本届SoCC大会共设有2个特邀报告(Keynote Talks)。一个是MIT的Sam Madden的Interactive Data Analytics: the New Frontier。在数据爆炸的大数据时代,最大的挑战莫过于做到理解大规模数据,而交互式分析的技术则是其中的关键,报告介绍了MapD,SeeDB,Scorpion三个系统。MapD是一个采用GPU作为查询处理器的SQL数据库,提供了毫秒级的快速查询相应;SeeDB采用交互式方法为用户推荐可视化数据展示效果;Scorption通过分析用户的查询和对应的数据找出其中的异常值(Outlier)从而帮助发现原因所在。这三个系统从数据处理,可视化,异常原因挖掘等方面给出了交互式环境下的解决方案。

另一个特邀报告来自Google负责基础架构方向的VP,Eric Brewer,也是著名的CAP理论的提出者。他这次的报告主要是关于Kubernetes,即Google使用多年的大规模容器(Container)管理技术。他的报告纠正了现下对于容器使用的误解,指出容器不应该是云端应用的边界,而应该被认为是云端环境里新的“类”(Class)。在Kubernetes下,Google采用Pods进行容器的组合和协调调度,使得存在于容器中的云端独立的服务可以更好的组合、封装,并且各自独立的扩展和升级。容器技术不断地走向成熟,大大简化了云部署的难度,从而可以方便的为云计算用户提供隔离的、高性能的、易扩展和维护的云端应用部署方法,这使得云计算更加“接地气”。

潜力无限的最佳论文

这次会议收录的34篇论文,但涵盖的范围很广,既有研究存储、网络、数据库、性能测试等经典的数据库和系统研究方向的工作,也有任务调度、弹性扩容、迁移等随云计算和数据中心的发展持续火爆的研究课题,还有采用新硬件架构的系统或者跨领域研究等另辟蹊径、别具一格的文章。

在这其中,有两篇文章摘得了这次大会的Best Paper Award(最佳论文奖)。其中之一是来自CMU的Managed Communication and Consistency for Fast Data-Parallel Iterative Analytics,针对当前非常火爆的大规模分布式机器学习领域进行了研究。目前机器学习在越来越多的领域得到了广泛的应用,如何让机器学习算法在分布式环境下更好地并行成为大家关注的焦点。这个分布式系统采用参数服务器(Parameter Server)架构,通过提高影响算法收敛速度最显著的参数在网络传输时的优先级,达到了更高效利用带宽的效果,是一个很好的机器学习和分布式系统相结合的工作。实验表明,对于MF、LDA、MLR这三个算法,分别在Netflix,NYTimes,ImageNet这三个数据集上,该系统均能取得了2到3倍的性能提升。

另外一篇Best Paper是来自Waterloo大学的Database High Availability Using SHADOW Systems。热备数据库系统是数据库领域研究的经典问题。这个工作充分利用可靠的分布式底层存储,使得提供服务的数据库管理系统(Active DBMS)可以采用write offloading技术,即只需要极少的磁盘IO来记录日志,将真正的持久化数据库和checkpoint等磁盘IO较多的操作交由备份数据库管理系统(StandBy DBMS)完成,从而使得整个系统在提供高性能服务的同时仍然保持高可用性。

可圈可点的微软研究院成果

本届大会上,微软研究院继续在云计算这个重要的基础设施研究领域大放异彩,一共有6篇Oral Paper,以及若干篇Poster被大会录取,这些研究多围绕微软的数据中心、Azure云平台、Bing服务等展开。其中有2篇Paper是来自微软亚洲研究院系统组的工作。

众所周知,数据中心是云计算技术的物理载体,而数据中心在提供稳定、可靠、高性能服务的同时,也是名副其实的用电大户。如何尽可能的为数据中心节约能源成为了当下重要的研究课题。这次在SoCC上展示的,微软亚洲研究院系统组的研究工作之一的DSwitch,就是针对这个问题的新颖工作。在传统计算机架构中,磁盘是安装在主机上的,但是在数据中心不忙时,很多的机器会进入休眠状态,以节约电源,但是这样的话会导致磁盘上的数据无法访问。为了解决这个问题,DSwitch设计了一个自动切换系统,可以让磁盘在主机连接和网络连接间自由切换,从而在主机正常使用场景下保持磁盘访问的高性能,在主机休眠时保持磁盘数据的可访问性。采用这个系统,可以在节电模式下节约91.9% to 97.5%的用电量,与此同时继续保持磁盘的可访问。

另外一篇论文GraM: Scaling Graph Computation to the Trillions就是我们团队的工作了。在大数据时代下,现实生活中的图越来越多,比如说facebook,高达10亿量级的用户,用户之间的好友关系就可以构建成很大的图,在这样大规模的图上做计算可以发现很多的信息,比如说PageRank类似的算法就可以挖掘这里面的人的影响力,进而研究信息传播速度、广告投放效果等现实问题。当然,这只是个例子,除此之外的很多问题也都可以抽象成为图的表达形式,进而把相应的算法用图计算算法来表达。GraM是一个通用高效可扩展的图计算引擎,提供以图节点为中心(vertex-centric)的编程接口,从而支持多种图计算算法。它充分利用了当前服务器多核的架构,以及数据中心中即将广泛应用的支持远程内存直接访问(RDMA)的网络,使其既可以在单机多核的服务器上纵向扩展也可以在分布式环境下实现多机的横向扩展。相比于现有的图计算引擎,GraM更是带来高达一到两个数量级以上的速度提升。实验测试中,我们在64台机器上仅仅花了140秒就完成了对于1.2 兆(trillion)条边的图的一次PageRank迭代,这是迄今已知最大的图上最快的计算速度,可以说是图计算引擎研究领域新的一个里程碑。

为期三天的SoCC 2015大会,给参会者提供了一个充分地展示和交流研究成果的机会。如今云计算的理念渐渐深入人心,云计算的未来更是大有可为。在这样一个蓬勃发展的现实背景下,我相信现在学术界的研究会和工业界的实践相互启发、相互印证;在未来,真正将云变成互联网领域的基础架构,从而改变整个互联网的应用环境。

作者简介

我叫肖文聪,是微软亚洲研究院的一名实习生,本科毕业于北京航空航天大学。我从本科大三暑期开始通过微软创新人才学院(Pre-PhD)项目来MSRA系统组实习,至今已有整整两年,目前是北京航空航天大学和微软亚洲研究院联合培养博士生,导师是北航的李未院士和微软研究院的周礼栋首席研究员。我的研究领域为分布式系统,研究方向是大规模分布式图计算和机器学习系统。

微软亚洲研究院的实习,让我觉得每天都特别的充实。从最开始的接触实际生产环境中的大规模分布式系统,研究架构分析性能,到如今亲手搭建系统,设计实验去验证自己的想法,这些都是不断的自我挑战和突破极限。在纵向的科研方向之外,研究院众多的讲座也使得我得已横向地拓宽自己的眼界,去了解其他研究领域,相互去借鉴和启发。在研究院的实习还让我认识了很多志趣相投的小伙伴,大家用青春的努力和汗水共同构成了我们丰富多彩的实习生活~

了解微软亚洲研究院实习生项目,欢迎关注“明日之星”实习生项目介绍。更多实习机会请见: http://www.msra.cn/zh-cn/jobs/interns/internopenings.aspx