灾难恢复的三伏天结束了

为什么像超融合基础设施这样的技术可以更容易地控制停机时间和从it灾难中恢复。

汤姆·摩根

汤姆·摩根2021年5月13日

灾难恢复过去就像三伏天一样缓慢而痛苦。

但据两位业务连续性和灾难恢复(BCDR)专家在接受Nutanix的《The Forecast》采访时表示,这些日子正在过去。埃德·柯林斯(Ed Collins)和丹·安格斯特(Dan Angst)是Nutanix的两位领先的BCDR专家,也是该领域的先驱hyperconverged基础设施(HCI),它在一个软件包中虚拟化计算、存储和网络。

在与The Forecast的谈话中,柯林斯和安格斯特指出,停机时间越来越不可接受,因为数字技术正如此深入地融入企业和组织。与此同时,自动化和云技术使创建业务连续性计划变得更加简单,这些计划可以帮助组织抵御勒索软件和自然灾害等威胁。

相关的

为了简化VDI工作负载的灾难恢复,Penn National Insurance公司采用了混合云技术

在古代,天文学家注意到每年的仲夏太阳是如何与大犬星座中最亮的星星天狼星对齐的。古代的观察者认为,7月和8月那漫长炎热的几个星期,也就是后来被称为三伏天的日子,也会带来灾难。

虽然我们生活在一个不那么迷信的时代,但是现代的IT领导们非常清楚灾难恢复的三伏天可能会持续一整年——尤其是在一个日益复杂的BCDR景观。

Angst和Collins为业务连续性和灾后恢复的挑战带来了深刻的经验。在与The Forecast的对话中,他们描述了重塑BCDR的四个趋势。

停机时间越来越昂贵

BCDR中的一切都归结为处理停机时间。在Nutanix公司担任业务连续性和灾难恢复解决方案营销主管的柯林斯说,限制的能力是衡量一个组织健康状况的一种手段。

柯林斯说:“保护你的业务首先要保护你的应用程序和数据。“我们的客户对IT的依赖程度越来越高,以至于IT已经成为大多数公司的命脉。灾后恢复能力几乎是一种健康检查。”

柯林斯和焦虑他列举了一系列IT系统宕机的代价高昂的例子:

  • 2015年:苹果专卖店12小时的宕机给公司造成了2500万美元的损失。
  • 2016年:达美航空公司(Delta Air Lines)因5小时的故障损失1.5亿美元,并取消了2000次航班。
  • 2019年:一次14小时的停电给Facebook造成了9000万美元的损失。
  • 2021:仅勒索软件攻击就将在全球造成估计200亿美元的损失。

Angst指出,高德纳公司(Gartner Inc.)一份广为引用的估计称,IT停机时间给企业造成的平均每小时30万美元的损失。“这真是令人难以置信,”他说。

2.恢复目标越来越紧

对IT系统的日益依赖促使企业减少甚至消除停机时间。要做到这一点,他们必须估计在不损害业务或损害品牌信任的情况下,他们能承受多少停机时间。

Collins解释说,两个关键的停机基准——恢复点目标(RPOs)和恢复时间目标(RTOs)——每天都在缩减。

“你必须开始考虑‘我可以丢失多少数据?’这就是RPO(恢复点目标),”柯林斯说。“五年前还可以忍受的事情现在已经不能忍受了。”

RPOs回顾过去,估计公司在两次备份之间可以安全运行多长时间。然后是停机方程式的另一半:

“我需要花多少时间才能让我的系统重新上线,以便以一种可容忍的方式恢复?”这个指标通常被表示为RTO,或恢复时间目标,”Collins补充道。

rto有远见,因为他们会在给企业和客户带来严重痛苦之前估计停机时间。同样,五年前还可以接受的实时操作系统在今天已经不可能了。

最新一代的恢复工具正在帮助企业缩短停机时间。例如,一个Nutanix的客户实现了恢复点目标的24比1的改进,恢复时间目标的2比1的提高。

“这太神奇了,”Angst总结道。

这怎么可能呢?这主要与将BCDR构建到虚拟环境的体系结构有关。

恢复工具变得越来越智能

通过超融合基础设施,软件将计算机、存储阵列和网络交换机的操作虚拟化。这使得旋转复制现有it操作的环境并支持快速灾难恢复变得非常容易。

Nutanix的BCDR工具包括习的飞跃用于灾难恢复和我的对于数据的保护。这些工具是从头开始构建的,以便与各种管理程序(包括AHV以及该公司的全套企业云管理服务和软件。

Angst解释道:“这一切都是基于平台。“灾难恢复和业务连续性是一体的,只需点击鼠标即可。”将所有东西集成到平台中意味着客户可以将数据备份到任何他们想要的地方,从内部数据中心到超大规模的公共云服务,如AWS和Azure。

柯林斯补充说:“三伏天DR给我们的客户带来的很多复杂性现在已经一去不复返了,因为你可以通过一个界面来管理整个事情。”

相关的

数据库管理自动化带来巨大的投资回报率

自动化的扩展使用使得创建根据每个业务需求定制的备份和恢复层变得很容易。最关键的应用程序可以运行接近实时的故障转移,这是昂贵的,但值得的。不那么重要的应用程序及其数据可以有更慷慨、更便宜的恢复目标。

这有助于企业优化总体拥有成本,同时创建复杂的数据保护和灾难恢复环境,降低复杂性。柯林斯说:“因为所有的管理、配置和故障都可以在一块玻璃上完成,所以你可以在iPhone上完成这些操作。”“我们已经为客户做了所有繁重的工作。”

测试变得越来越实用

从历史上看,测试一直是灾难恢复中最令人头疼的问题之一。彻底、准确的测试至关重要,因为公司需要证据证明他们的备份在灾难中仍然有效。公司经常在周末让他们的IT团队工作,在不影响业务运营的情况下关闭IT基础设施,然后将其恢复。

测试是如此复杂,以至于公司可能每年进行一到两次测试——当新的网络恶棍似乎每周都出现时,这很难说是最安全的立场。Nutanix和它在“灾难恢复即服务”(DRaaS)领域的竞争对手让公司可以运行复杂的测试,而不用考虑传统的复杂性。

Angst说:“你不必拥有那些让测试变得非常困难的应用程序、数据和工具的多重竖井。“如果我愿意,我可以每天测试。”

准确的测试需要一个承载生产环境最新虚拟机快照的数字沙箱。可以很容易地复制整个集群或特定的虚拟机进行测试。当测试结束时,只需点击一下就可以轻松摧毁沙盒。

柯林斯总结道:“我们取得了巨大的进步,减轻了客户过去所经历的许多痛苦。”“我们必须抛弃那种认为DR甚至测试DR都很困难的传统观念。”

换句话说,把三伏天留在它们所属的地方:在古代占星家的想象中。

汤姆·曼根是一位特约作家。他是一位资深的B2B技术作家和编辑,专注于云计算和数字转型。用他的电话联系他网站LinkedIn

©2021 Nutanix公司保留所有权利。如需其他法律信息,请到这里。

相关文章

hybrid-multicloud-interoperability-in-cloud-computing
技术

混合多云互操作性的竞赛

Red Hat的Ron Pacheco解释了与Nutanix的新合作关系是如何因客户需要构建和管理跨私有和公共IT基础设施的应用程序而引发的。

Baidu