对于企业来说,数据灾备这件事儿,本质上就跟买保险差不多。而“保险”这两个字,说到底是一种心理保障——你对灾难的心理恐慌有多深,掏钱买保险的意愿和愿意出的价码就跟着有多高。眼下中国企业在这块的建设还处在“方兴未艾”的阶段,尤其是伴随着数字化转型和数字经济的推进,数据早已不只是支撑企业运转的“后台工具”,它与实体经济已经深度绑定。数据一旦丢了,那就是实打实的真金白银。
前些年,业务连续性和数据灾备的建设,基本只集中在金融、电信这类大型企业的少数领域。其他行业对它的认识还不够,也没真正意识到数据灾备跟企业生存发展之间到底有多大关系。说句实在话,往往是那些亲身经历过数据丢失、真切体会到重大经济损失的企业,才会对业务连续性和灾备这件事产生刻骨铭心的理解。
根据市场数据,2015年我国灾备市场大约在136.8亿元,到2022年预计会增长到329.1亿元。政府、军工、金融、电信、交通、能源这些大企业市场,对灾备的需求正在规模化地往上走。而在各类灾备方案里,基于公有云的云灾备增长尤其迅猛。2019年5月,阿里云发布了企业级云灾备解决方案,云上的灾备成本相比传统线下方式能节省50%。
打个比方,对大多数企业来说,像阿里云这样的企业级云灾备,相当于一家第三方保险公司。企业不必再花大价钱自建灾备中心,只要采购公有云灾备方案,就能共享行业里最成熟的灾备实践,大幅降低成本,同时还能获得更全面的保障能力。
数字经济,灾备升级

数据是新时代的能源,而我们现在正站在这个数据能源新时代的起点上。IDC早在2014年发布的第七次《数字宇宙报告》里就预测,到2020年,全球由消费者和企业创建的数据——包括视频、音频、文件等——总量将达到44ZB。
回看140多年前的1879年,爱迪生经过几千次实验终于点亮了电灯。那时候的人类,对电的重要性还远远没有概念。可90年后的1969年,人类已经登上了月球;1970年空中客车公司诞生;再后来,全世界全面进入电力电能时代,几乎所有的人类文明都被电力化、电能化——从大规模现代化生产车间,到更大规模的城市建筑群,再到民航、火车、医院这些生命生活基础设施。每一次停电所造成的社会影响,其量级都在不断地“换代升级”。
在DT时代,数据备份的重要性,只会随着数据应用的深度和广度不断加深。过去信息技术时代,IT系统和数据的灾备就已经很重要了。有专家指出,如果不做灾难恢复和业务连续性规划,大约有5%的概率会引发企业财务危机;而美国德克萨斯州大学的一项早期调查显示:只有6%的企业能在数据丢失后存活下来,43%会彻底关门,51%会在两年内消失。
如今人类从信息化迈入数字化和智能化时代,信息技术已经跟企业业务和流程融为一体。数据丢失带来的后果,可能直接是毁灭性的。数字业务对灾难恢复的要求远高于传统IT,甚至更加苛刻:RTO(能容忍的恢复时间)从小时级降到了分钟级以内,RPO(能容忍的最大数据丢失量)也要求尽可能低。
云灾备是灾备技术趋势

十三五规划里明确提到:“对于信息安全、数据安全,灾备是最基础的技术需求,几乎所有的信息资产都需要灾备保护,以确保在任何意外故障情况下,信息系统的正常运转。”
灾备技术国家工程实验室副主任、清华大学教授舒继武在阿里云企业级云灾备解决方案发布会上介绍,历史上的灾备主要是容错系统的一个研究方向,而现在的灾备,是容错计算、信息安全和系统管理三个研究领域的综合体。
云灾备是灾备业务的一种实现形式,主要包括云备份和云容灾。这两者其实是同一枚硬币的两面:云备份是把数据直接备份到公有云上,实现数据的备份与恢复;云容灾则是通过数据/系统的云端迁移、高可用等方式,实现业务的快速接管,保证业务连续性。云灾备的特点很清晰:减少基础设施投入、降低IT成本;按需付费,机动性高;可快速恢复,灵活性好;安全备份,以服务为导向。
相比之下,传统灾备有一个典型的“两高一低”毛病:高成本、高浪费、低利用率。企业自己建灾备中心,备份机房平时的利用率可能只有20%,却要付出100%的成本。硬件投入大,三年过了维保期——如果三年内没出事故,那备份机房基本就白费了。
灾备对企业来说就是买保险,而买保险最划算的方式,当然是找第三方商业保险公司。云灾备已经是大势所趋,Gartner预计到2020年,90%的容灾操作会发生在云端。
这次阿里云发布的企业级云灾备方案,采用了国内首个磁盘级数据持续复制技术,同时支持混合云和跨云的多平台融合架构,给企业提供了五大能力:用户数据中心和公有云可以相互容灾;业务不停机就能完成容灾演练;首个云原生支持弹性容灾,只需要部署最低负载即可;一键容灾快速恢复,RTO、RPO能达到秒级;以及完善的数据加密体系,保证数据极致安全。
陈绪在发布会上强调,阿里云企业级云灾备的独特能力包括:本地和云上都可快速恢复;首家大数据异地双活容灾;端到端的数据加密校验,云端容灾数据自动多副本保存;五分钟就能启动备份服务;高达1:30的备份数据重删比;异地备份方案成本比传统方案更低。
此外,阿里云企业级云灾备还严格符合四个极限目标:不在同一火山地震带、不在同一水系、不在同一电网、不在同一运营商网络出口。这样能最大程度地保障业务和数据稳定安全。
阿里云企业灾备的实力

灾备涉及技术、管理、成本等多方面的综合要求。国家标准《信息系统灾难恢复规范》GB-20988-2007提出了6个级别的要求,SHARE 78国际组织则给出了7级国际标准,恢复时间从72小时到分钟级不等,恢复点从1到7天到0级不等。
陈绪强调,阿里云企业级云灾备体现的是包括网络、数据库、存储等在内的全方位能力。比如数据可靠性方面,全链路加密,支持用户自己带的密钥——整个存储和传输过程都经过加密,只有用户自己能看见全过程。数据可靠性通过3AZ(三个可用区)实现,这在国际上也是领先的。能实现这么高等级的安全可靠,一个很重要的原因就是阿里云的技术都经过了双11的实战演练。
双11可以说是全世界最好的技术练兵场,每年峰值都在不断攀升。阿里云正是支撑双11业务的核心杀手锏——在双11业务来临时,所有环节都已经提前检测过一遍,系统能承受的负载和压力也都百分之百测试过了。正是因为有这种实战演习环境和模式,才能保障阿里云企业级云灾备的技术能力,为制造、金融、医疗等企业提供一键容灾,包括业务恢复、数据保护和网络自愈,最大程度地保护本地和云上业务的稳定运行。
灾备演练是任何灾备方案成功的关键。没有经过演练的灾备方案,都不能叫成功的灾备方案。而且灾备技术并不孤立,它涉及备份、复制、虚拟化、存储、网络、超融合等多种不同技术,系统复杂性高、建设要求复杂。好的灾备方案要求实现用户的“故障无感知”——业务平滑过渡,数据无损失。除此之外,成本还要可控,在同等级灾备能力下做到更低的成本。
具体来看,阿里云企业灾备背后的技术,除了飞天整体能力外,还包括阿里高可用机房、超强容灾云服务器、存储、数据库灾备等极致的技术能力。
在高可用机房方面,阿里云的不间断IDC可双向引入独立市电,机架服务器采用AB路供电,通过双路供电让电池后备电源无缝接管25分钟,N+1冗余柴油发电机可在1分钟内接管;而阿里云的高可用骨干网,能实现不同AZ之间低延时高速互联,再加上AZ内双冗余网络架构以及IDC 3路由出口光纤冗余,进一步保障了网络的可靠性和高可用;最后是3N超多线接入BGP,保证客户数据传输过程中不受不同网络的困扰。在超强容灾云服务器方面,阿里云的云服务器从物理机、机架、数据中心和跨区域的可用区四个层面进行保障。而飞天的盘古存储,则从数据保护、高可用性、IDC基础设施等层面进行了数据可靠性保障,其中还包括与清华合作的多项领先技术。
在数据库灾备方面,阿里云对目前市场上的主流数据库都能进行完全高效的灾备备份,可以准确评估数据库到RDS的兼容性,具体到每张表、每条SQL;DTS数据传输服务全量性能可达70MB/s,实时同步性能高达3万TPS,传输粒度可以细化到记录级别,链路秒级恢复能力,链路可靠性高达99.95%。阿里云PolarDB也在近日发布重大更新,支持Oracle等传统数据库一键迁移上云,解决了企业核心业务上云的难题。
凭借多层次防护、跨区域容灾等能力,阿里云已连续三年入选Gartner全球云存储魔力象限,并被列为全球领导者。在数据安全领域,它也是亚洲合规资质最全的云服务商,率先发布《数据保护倡议书》,是首个提出“绝对不碰客户数据”承诺的云厂商。
在发布会上,陈绪代表阿里云发布了TCO承诺书:在企业灾备场景下,同样的容量、同样的带宽、同样的RTO和RPO、同样的容灾等级,阿里云承诺比自建灾备成本更低。敢写承诺书的都有底气,而阿里云的底气就来自于自身的硬技术实力。正如舒继武教授所说,灾备技术趋势还包括容器、边缘计算、超融合等,这些丰富的灾备场景,只有在云灾备的前提下才有可能实现。就像IT终将过渡到DT一样,传统企业灾备也终将过渡到云灾备。而阿里云作为亚洲最大的公有云厂商,完全有可能碘伏传统企业灾备,把普惠灾备带给千万企业。
