阿里超大数据中心"异地双活"实践

2014-03-16  来源:本站原创  分类:编程  人气:0 

摘要:阿里技术团队成功应对了双十一“交易能力达到每秒8万笔的上限;支付能力在峰值能力突破每秒3.8万笔”的挑战。而在支付、移动适配、ODPS、OceanBase、Galaxy之外,业内对阿里超大数据中心“异地双活”实践知之甚少。

灾备系统和应急管理体系建设是数据中心永不变更的热点话题。从“两地三中心”、“同城双活”到“异地双活”,业内的讨论层出不穷。即使在容灾备份领域较早入手的金融行业,在灾备切换时也是谨慎再谨慎的,在历年“真实切换”演练时“手软”的例子更是不胜枚举。究其根源,除了应急预案不完善、灾难恢复演练不到位之外,单纯硬件和软件很难完全解决业务连续性问题才是关键。事实上,将业务系统切换到灾备中心容易,但故障消除后,将业务系统再调回生产中心,需要保证数据库的完整,其中数据同步效率更加需要底层的支持,其过程异常复杂。

但只有数据中心异地双活才能真正应对地震、雪灾、网络瘫痪等灾难事件,实现跨地域的容灾能力,保障不受单地域的灾难的影响。阿里11.11直播现场(见《【观察】阿里11.11第六年,用我们的视角直播技术与数据》), 连续六年“双十一”技术总负责人阿里巴巴副总裁刘振飞特别提到:本次双十一交易能力达到每秒8万笔的上限;支付能力在峰值能力突破每秒 3.8万笔,准备阶段提供了500套技术预案,共计8次技术演练,支付、手机客户端体验、ODPS、OceanBase和数据中心异地双活都是其中很关键的技术考验点。“阿里历史上第一次打通了交易平台和支付平台,8次演练中遇到很多问题都得到了解决。所以今年高峰到来,我们淡定迎接了挑战。”

阿里超大数据中心"异地双活"实践

阿里技术保障部资深总监 周明

在支付、移动适配、ODPS、OceanBase等技术方面,CSDN云计算曾有多次不同报道。而数据中心异地双活却是极少出现,以双十一的规模来计算,其背后所代表的将是超越以往常规应用的技术实现。为此,直播间隙,特别采访了阿里技术保障部资深总监周明。他对我说:数据中心异地双活2013年就已启动,直到近期才正式完成,刚好赶上双十一。能够做到数据库同步,保证数据的一致性,解决距离带来访问延迟的超大体量电商网站数据中心异地双活,目前全球只有阿里巴巴已完成部署。

从2013年近2000套到2014年500套技术预案,大幅减少的原因是什么?

周明:这几年中,阿里对整体系统运行情况越来越清晰,所以有些技术预案就不再需要了;另一方面,我们将一些系统进行了合并,比如淘宝、天猫、无线等。这些系统最初因为业务发展需要而相对独立,但随着规模越加巨大,系统中的一些公共功能是相同的,将这些功能提炼出来后,形成公共平台。这样,更加弹性和可控,而且整体系统数量就减少了,与之对应的是,系统预案也减少了。比如云梯1(Hadoop系统)和云梯2(飞天5K+ODPS)的系统更替,以及登月计划将更多业务部门数据迁移到ODPS上就是这样的变化。这两点也使得备战双十一时的技术预案大幅减少。

500套技术预案怎么划分的?

周明:我们的预案可以从访问量、业务、用户、系统等多个视角来划分。在双十一中,技术保障团队要提供基础架构服务,如数据中心包含服务器、网络、存储在内的整体基础设施;提供基础服务,如负载均衡,协议等,以及研发一些基础系统;运营在平台上的业务系统的保障,保证系统能够在双十一能够应对高峰挑战。简单说,就是从IDC机房到中间运行应用的基础平台再到应用系统的保障,因此我们也在各个环节准备了相应的预案。

其实去年双11,全集团准备了2000多套技术预案,今年一方面大促的技术打法越来越成熟,另一方面通过多次演练对系统容量和极限做到心中有数,因此预案数量降到了不到500套,不但大大减少了产品、开发和测试的工作量,而且也降低了双11当天技术决策的复杂性。

交易能力达到每秒8万笔的上限;支付能力在峰值能力突破每秒3.8万笔。是否在预估内?

周明:都在预估内,各个技术部门都做了充分的准备,从10月份开始也进行了多次联合演练。

技术保障提到一共做了8次演练,蚂蚁金服鲁肃提到了10次。哪些是你们重复演练的?

周明:各个部门会先分头演练,然后再联合演练,今年全集团打通集体演练共有8次。另外,今年是第一次把交易和支付系统打通演练,彻底扫清了两套系统的接口之间可能存在的技术灰色地带,特别是模拟了数据高峰的情形,让我们充满信心地应对双11大考。

首次打通了交易平台和支付平台。其中在技术方面遭遇了哪些挫折和挑战?如何应对的?

周明:确实比预想的要多。首先是业务需要,运营活动在最初的时候很难有明确预计,很难思考的很成熟,所以很多需求都是逐渐变化的,我们也要随之改变,灵活性上很有挑战;其次是技术上看,当规模达到一定程度后,无论是对应用系统、数据库、网络还是银行支付等渠道,都有更大挑战,比如10月份启动技术演练的时候,并不是一开始就成功的,我们也遇到了非常多的大大小小的问题,比如出现Bug,能力够不到,模拟数据有问题等,直到第六次、第七次演练时,才跑通。

为了应对这些挑战,我们要更好地实现系统弹性扩容,包括“数据中心异地双活”和“服务器资源弹性部署”。前者真正使电商网站具备跨地域的容灾能力,保障不受单地域的灾难的影响。即使杭州遭遇了极端的自然灾害,数据中心“全军覆没”,双11仍然能够顺利运转;后者服务器资源弹性部署,可以应对不可预知的业务爆发。一旦有超出预期的业务热点出现,系统可自动调用其他资源使用不足的服务器,实现分钟级无缝切换,在不增加硬件部署的情况下应对更复杂的流量变化。除此以外,今年的双十一还首次启动阿里自主研发的OceanBase云数据库承担部分流量,也带来了一些新课题,但解决上都比较顺利。最终很好的应对了双十一的数据高峰的挑战。

为什么一定要考虑异地双活?

周明:阿里规模已经这么大,异要双活是我们技术必须要考虑的安全措施。无论将因为何种原因造成服务停止都将影响很多商家,影响生态链条上的各个企业。交易平台常用的主备模式(Active-Standby)看似备份但真正到恢复阶段是有不确定性,只能保证数据不丢失,但无法做到在主机房重大故障时对业务没有影响。而两地三中心这种模式,在确保数据一致性方面也有着很大挑战,所以我们2013上半年就做出重要决定,要做真正的异地双活。经过一年多的努力,投入很多技术才人和资源,顺利在双11之前落地。

除了容灾,异地双活还有个重要的意义就是大幅提高水平伸缩能力。业务单元化部署是实现异地双活的基础,飞速增长的业务可能在现有架构下遇到瓶颈,需要扩容时,不论是部署成本还是效率,通过单元化部署打通多个数据中心资源都是最好的办法。

当时感觉最大的挑战是什么?

周明:经历了五年双十一的考验,在技术保障方面我们心中比较踏实了。但异地双活却是第一次经历这么大规模的双十一,因此最担心异地双活的模式能否承受高峰压力。尤其是异地双活实现技术难度非常大,全球都没有可参考的成功经验,而且电商业务的数据是多纬度的,例如有商品、买家和卖家纬度,对数据一致性的要求比其他例如社交、搜索、视频等领域都高很多。举个例子,双活数据中心数据库方面要求同时存储,搜索结果差个几百条结果互联网用户很难有感知,但交易数据哪怕是一个小数点后几位都要保证一致,但现实情况是,因为距离和访问延迟等因素,都容易带来数据的不一致。而在双十一这样的高压下,出现各式各样的情况都是很可能的。

为了准备迎接双11,我们在今年的8月份正式完成了阿里电商网站的异地双活,又在历次演练中经过实战检测,所以在双11这一天心里还是很有把握的。每秒8万笔,这是非常惊人的,相信在全球都没有第二家能够在超大规模电商交易方面做到异地双活。

OceanBase之外,ODPS和Galaxy的应用场景是什么?

周明:ODPS是阿里自研的做离线数据挖掘分析平台,支撑了集团80%左右的离线双11业务,包括个性化推荐、广告、搜索、BI业务报表数据分析等。而Galaxy是阿里大数据团队自研的流数据计算平台,每秒可运算数据超过500万条,演示大厅中的数据大屏实时播报,都是在Galaxy中处理后呈现。

在超大数据中心异地双活之外,我们还简单谈到了为应对海外用户参与双十一,阿里所构建的30多家CDN的节点,实现了除南极洲以外其他地区全面覆盖的目标,以及基础安全、技术安全、业务安全方面的保障策略。对于我的问题,周明回答的极为坦率。他对我说:“阿里对技术是很开放的,很多技术方案都直白地分享去出了。今年更是如此,很多数字都是实时公布的。如果你有感兴趣的项目,我们再找实际操刀的团队来分享。”

顺着这个话题,我请阿里的朋友帮忙邀请了阿里Oceanbase、ODPS和飞天的技术专家来到2014中国大数据技术大会深入分享技术实践。欢迎大家参加!

相关文章
  • 阿里超大数据中心"异地双活"实践 2014-03-16

    摘要:阿里技术团队成功应对了双十一"交易能力达到每秒8万笔的上限:支付能力在峰值能力突破每秒3.8万笔"的挑战.而在支付.移动适配.ODPS.OceanBase.Galaxy之外,业内对阿里超大数据中心"异地双活"实践知之甚少. 灾备系统和应急管理体系建设是数据中心永不变更的热点话题.从"两地三中心"."同城双活"到"异地双活",业内的讨论层出不穷.即使在容灾备份领域较早入手的金融行业,在灾备切换时也是谨慎

  • 揭开Google数据中心的五大神话 2014-06-07

    各种媒体上关于Google的数据中心有很多文章,包括他们怎样进行数据中心的运营.管理和分析,造成了一大批Google的神话,但这里有些并不准确,这是我从与Google的工程师与数据中心生态系统的专家们讨论后得出的结论. 虽然表面上看Google正在做的就是数据中心的最佳实践,但并非总是如此.Google数据中心的运转是为他们的业务--广告收入而服务的.而重要的是你的数据中心应该为你的企业服务,而不是为了Google.每当我谈到这里,总是会听到一些数据中心的专业人员叫着"天啊",这让人无

  • Facebook数据中心实践分析,OCP主要工作成果介绍 2014-09-02

    保密本就是数据中心行业的惯例.2014年11月,我独自去拉斯维加斯(Las Vegas)南部参观SuperNAP数据中心.下车后,几次试图用手机拍建筑外景,迅速被开着悍马巡逻的警卫阻止.进门等候预约时段,虽说在美国警卫持枪是再平常不过的事,但警卫室里那几位严阵以待.随时准备应付劫匪的架势,仍令我印象深刻.参观数据中心内部不允许拍照是行规,不过之前我参观数据中心都有专人陪同,还没享受过这么戒备森严的待遇. 图注:SuperNAP 7数据中心的接待室,我在这里等了20多分钟,得以观察小窗子里面的警卫

  • 图说Google数据中心 2013-11-07

    Google数据中心一直是业界中令人着迷的"对象"之一.Google这个搜索巨人很少暴露其数据中心,那么Google到底有多少数据中心?它们分布在什么地方?笔者整理收集一些有趣信息,以供分享和参考. Google数据中心分布图 Google 搜索速度为什么能这么快?这主要因为Google在全球分布着众多的数据中心.根据现有信息,如果包括在建的数据中心,Google共有36个数据中心.其中美国有19个.欧洲12个.俄罗斯1个.南美1个和亚洲3个(北京-Google.cn.香港-Googl

  • 数据库Oracle数据的异地的自动备份 2014-05-11

    正在看的ORACLE教程是:数据库Oracle数据的异地的自动备份.在大型商业应用中,数据的异地容灾备份十分重要,也必不可少.笔者根据自己的实践经验,设计了一套简洁地实现异地数据自动备份的方法,可供数据库管理人员参考.文中所有的程序都经过测试,运行良好.这里模拟的异地运行环境为一主一备两套Sun Solaris系统,所采用的备份方法为Oracle数据库提供的标准备份:export. 相关命令 文中主要用到三个命令,这里先单独介绍一下: export: 将数据库中数据备份成一个二进制系统文件,它有

  • 数据中心行业遭遇缺人苦恼:两年没看到新面孔 2014-08-13

    DCD2012第三届上海站数据中心会议日前举行,600多名国内外数据中心产业人士与会,探讨了包括数据中心建造和检测标准.能效标准及最佳实践等论题,而人才匮乏则是与会人士一致感同身受. 人才:两年没有新面孔 随着用户数量增长,产业对数据中心的要求不断提高,数据中心对于人才的需求也越来越大.万国数据服务有限公司副总裁梁艳告诉<IT时报>记者,现在数据中心行业人才需求十分火爆,"薪酬高的可以很高",但是相比需求,人才资源却十分稀缺,流失率也很大."找到这方面专业的优秀人

  • 如何建设云数据中心 2014-09-10

    一.什么是云数据中心?云数据中心与传统数据中心有什么区别? 近年来,数据中心建设成为全球各行业的IT建设重点,国内数据中心建设的投资年增长率更是超过20%,金融.制造业.政府.能源.交通.教育.互联网和运营商等各个行业正在规划.建设和改造各自的数据中心.随着企业信息化的深入和新技术的广泛使用,传统数据中心已经无法满足后数据中心时代的高效.敏捷.易维护的需求. 传统数据中心与云计算数据中心的区别在于应对的业务模式不同.传统数据中心多数是基础性数据业务,并有明确的跨网和区域性限制,而云计算是通过网络

  • Overlay对数据中心网络的改进 2015-01-22

    编者按:Overlay网络方案就是通过在现有网络上叠加一个软件定义的逻辑网络,最大程度的保留原有网络,通过定义其上的逻辑网络,实现业务逻辑,从而解决原有数据中心的网络问题,极大的节省传统用户投资.本文是<Overlay网络与物理网络的关系>的前传,帮助你了解一些关于overlay的基础概念. 云计算大潮将数据中心的网络建设推至聚光灯下,各种解决方案和各种技术标准不断涌现.以VMware为代表的软件厂商提出Overlay网络方案后,为数据中心网络的发展提出了新的思路.那么,Overlay解决了什

  • 数据中心生命周期管理 Foreman 2012-10-24

    Foreman 网站 : http://theforeman.org Foreman是一个集成的数据中心生命周期管理工具,提供了服务开通,配置管理以及报告 功能,和Puppet Dahboard一样,Foreman也是一个Ruby on Rails程序.Foreman和 Dashboard不同的地方是在于,Foreman更多的关注服务开通和管理数据中心的能力,例如和引导工具,PXE启动服务器,DHCP服务器及服务 器开通工具进行集成. Foreman 机器统一管理平台 Foreman可以与Pup

  • 雾都数据中心为您提供50M-1G免费全能空间服务 2013-11-04

    以下信息来自网络,请用户自行分辨真假. 雾都数据中心提供50M-1G免费动态空间申请,空间是全能的,带控制面板,可绑定自己的域名,独立的数据库,支持FTP上传管理方式,空间支持HTML.ASP.PHP.MYSQL.FSO.ACCESS等. 申请申请方式:到雾都站长论坛免费空间申请专区发帖申请! 申请条件:论坛用户发宣传贴5贴.具体请看免费空间申请说明, 申请网址:http://bbs.568idc.com 免费空间用户要求 一.开通空间后3天内,必须上传主页,并作好本站链接! 1.给本站做好两个

  • CNZZ数据中心:我国电子商务网站1.86万家 B2C增速超行业水平 2013-11-20

    CNZZ数据中心发布的数据 本报讯 (记者 李斌) 昨天,网站流量监测网站CNZZ数据中心发布的数据显示,在2010年,全国电子商务网站数量继续增长,12月的行业网站数达到1.86万家,与年初相比增长了16.13%.其中,在2010年,B2C网站数从年初的1.01万增长到12月的1.18万,增长率达到20.45%,超过了电子商务全行业的增长速度. 同时,在2010年,电子商务行业访客数也有了相当显著的提高,在电子商务的行业访客中,有购买行为的访客数在2010年的增长率达到了20.15%,是近三年

  • JQuery中使用ajax传输超大数据的解决方法 2013-12-30

    这篇文章主要介绍了JQuery中使用ajax传输超大数据的解决方法,也就是比较多的数据,超过max_upload_size等设置,本文方法在chrome浏览器下测试通过,需要的朋友可以参考下 直接说问题,在一个页面用了Jquery(1.6)的Ajax请求,用的post,传递显示的数组有500多条.php端却只能接受到50条左右.刚开始以为是web服务器设置的问题,把,max_upload_size这类的都改了.但是没有效果,后来尝试用max_input_vars这个是新玩艺,刚开始还有点作用.后

  • 戴尔收购数据中心软件开发商Scalent 2014-01-10

    据国外媒体报道,戴尔周四称,已经同意收购私有数据中心软件开发商Scalent,但并未透露收购金额. 戴尔预计,该交易将于本季度内完成. 戴尔表示,这一交易将帮助该公司巩固其企业解决方案组合中一个重要的元素,与现有的服务器.存储器和网络平台相配合. Scalent成立于2003年,专门为数据中心的自动基础设施提供软件.该公司的投资者包括Hummer Winblad.JK&B Capital.FirstMark Capital和瑞士信贷. 戴尔上周称,该公司计划将企业解决方案业务扩增一倍,主要将通过

  • 揭秘Facebook俄勒冈州新数据中心 2014-03-25

    导语:美国知名科技博客作者罗伯特·斯考伯(Robert Scoble)近日参观了Facebook自行建造的首个数据中心,并用iPhone 4拍下了大量照片,从而揭开了这座未来派节能数据中心的神秘面纱. 该数据中心位于俄勒冈州普林维尔(Prineville),耗资上千万美元打造,属于未来派的节能数据中心.与普通数据中心相比,Facebook数据中心的能效高38%,建造成本低24%. Facebook数据中心外部情况,建筑物很庞大,旁边是一排排太阳能发电设备,但并非用于数据中心,而是周围的一些建筑.

  • Facebook投资4.5亿美元建第二家数据中心 2014-05-06

    据国外媒体报道,Facebook周四宣布,该公司将在北卡罗莱纳州的Rutherford投资4.5亿美元兴建第二个数据中心.今年早些时候,Facebook曾宣布将在俄勒冈州建造第一个数据中心,该中心将于2011年投入运营. 北卡罗莱纳州州长贝福·普尔杜(Bev Perdue)表示,Facebook在该州兴建数据中心的项目预计将需18个月才能完成,建成后将有约35到45名全职员工和合同工在该中心工作.他还指出:"未来可能还需展开额外的建筑阶段,具体将视商业需求而定."也就是说,如果Face

  • 开源并非免费 数据中心"开跑"开源软件 2014-05-15

    对于很多公司来说,开源软件已经不算什么新事物了,不少公司一直在使用Linux.Apache等开源软件来提供网站和文件服务器所需的服务.但是,如果要用开源软件来管理数据中心,人们还是有些犹豫.不过,有些公司已经在这方面进行了尝试,它们的经验表明,开源软件也可以成功地用于数据中心的管理. 位于美国德克萨斯州南湖市从事旅游推广业务的Sabre Holdings公司(以下称Sabre)很早就开始在数据中心的管理上使用开源软件.目前,整个公司有5000台服务器上运行者开源软件,其中一半的服务器在俄克拉菏马

  • Facebook开放数据中心技术 推动硬件设计公开化 2014-07-28

    Facebook数据中心气流框架图 Facebook今天表示,将向其他企业公开其新的服务器系统和计算机机房,希望以此推动硬件设计的公开化. 谷歌等许多科技企业将他们的计算基础设施的关键构造视为机密.Facebook却表示,将公开其位于美国俄勒冈州普莱恩维尔(Prineville)的一座数据中心的详细技术信息,包括计算机.供电系统.服务器机架.备用电池系统以及架构设计. Facebook此举类似于通过开源软件来促进创新,而此时正值电力和能源消耗逐渐成为很多高科技公司的重要障碍之际.Facebook

  • 永联数据中心为您提供1G全能型免费空间服务 2014-09-25

    永联数据中心为您提供1G全能型免费空间服务. 空间支持HTML.ASP.PHP.MYSQL.FSO.ACCESS脚本.送控制面板,可以绑定顶级域名.可以设置默认首页,404错误等. 支持FTP上传,FTP速度一般.访问速度还可以. 前提: 先注册他们的会员.然后再用注册的用户名和密码登入.再购买那空间,空间价格是0元/年的.所以购买后不需要付任何的费用就可以直接开通了. 申请地址:http://www.ynic.cn/

  • Facebook Open Compute:如何实现一个高效低成本的数据中心 2015-01-09

    Facebook Open Compute(FOC)是一个很无私的项目,据说一个团队辛辛苦苦搞了18个月,最终的结果很无私的公布出来.就这点来说Facebook比Google开放的多了,Google的数据中心技术上很保密. 搞FOC项目的目的是想建一个业界最为高效和低成本的数据中心,所谓高效,指的是能源效率,简单的说关键就是PUE.最终的成果很不错,PUE达到1.07,比目前业界主流先进水平高38%,建设和运营成本降低24%.PUE 1.07确实是很牛了,像国内的机房据说PUE一般只有2,一半的

  • 浅谈云计算与数据中心计算 2015-02-16

    云计算概念发端于Google和Amazon等超大规模的互联网公司,随着这些公司业务的成功,作为其支撑技术的云计算也得到了业界的高度认可和广泛传播.时至今日,云计算已被普遍认为是IT产业发展的新阶段,从而被赋予了很多产业和产品层面的意义.由于意义多重,各种概念纷繁复杂,众多公司和从业人员的眼中都有自己的一朵云,正如徐志摩在<偶然>一诗中所说:"我是天空里的一片云,偶尔投影在你的波心". 传统的系统设计考虑的主要是单机环境,而云计算主要考虑的环境却是数据中心.从单机到数据中心,