您好,欢迎来到中企联和主站首页

从812到新冠战疫,数据中心该如何从自愈到自救?

时间:2020-02-16 13:40 来源:未知 作者:超级管理员 点击:

我们知道,作为整个IT架构最底层的关键基础设施,数据中心的设计是一件非常严谨的事情。

冗余,这两个字贯穿了数据中心每一个子系统的设计过程,是高频关键词。

得益于2N或N+m的完美冗余,数据中心像一个冷冰冰的钢铁巨人一般,变得日益健壮。

地震可以有,只要烈度不超8,能扛;断电、停水,即便两个一起来,两三天内,能扛;台风,有预案,能扛;雷暴,有防雷接地系统呢,能扛……

至于设备级的故障,那更是数据中心设计中“并行维护”的起步要求,甚至允许多台设备故障神奇地同时发生。

 

数据中心是具备自愈能力的。

病毒进入人体,就是考验人体自愈能力的时候。自愈能力不够,又没有特效药帮助,只好选择送人头;自愈能力强,病毒不知不觉就被干掉了。

那么,既然有这么强大的自愈能力,数据中心还怕什么呢?

当然怕。最怕那种不在应急预案覆盖范围内的、起源于外部的不可抗力事件。

五年前发生在天津的812大爆炸,以及眼下的新冠病毒之战,就属于这类事件。

关于812事件详情这里就不再赘述了,有兴趣的同学可以通过《没有观众的裸奔》重温一下痛苦记忆。天津数据中心离爆炸核心不到1.5公里,受到极大破坏。

爆炸声落,数据中心内即发现8处故障点,其中包括冷水机组停机、爆管、地下室水浸这样的严重故障。

只要应急预案能覆盖的场景,处理起来就可以有条不紊。80分钟后,8处故障全部处理完毕,各系统运行平稳。当然,光有预案还不够,就像我们在事后反复强调的,应急预案和平时不折不扣的演习,关键时候才是救命稻草。

第一时间处理好故障,是数据中心的本分,也是其自愈能力的展示舞台。但第一天还远不是高潮,随后发生的一系列事情,才让这一天天的值守,变得特别漫长。

绝大多数情况下,数据中心依靠自身的自愈能力来消除风险,是不需要外部帮助的。但到了“大敌当前大局为重”的关口,一旦事件升级,当政府不得不上门来“帮助”你时,问题就来了。

清场之后,偌大的天津数据中心没有一个人影;我们经常挂在口边的“无人值守”,陡然一下成为了现实。

此情此景,如何自救?很显然,有一个完整、精确、随时随地可登入、允许关键运行参数远程修正的数据中心监管控系统,此时显得多么的重要……此处省略666字。关于当年天津是怎么做的,可参阅上述文章《没有观众的裸奔》。

天津数据中心虽然扛过了812的考验,但也暴露出若干问题。尤其是无人值守的全面管控能力。

我们常说,教训比经验更值得珍视。经此一役,腾讯在数据中心自动化系统方面加大投入,集中优势兵力很快推出了“腾讯智维”监管控平台,并开源共享给全行业。详情请了解《助力产业互联网升级 腾讯推出数据中心智慧运维全栈解决方案》。

因此,在年前新冠病毒还没有真正爆发的时候,我们在全国每一个数据中心,已经提前做好了无人值守的准备。极端情况下政府干预清场后,可能会有一段不短的时间需要启动“无人预案”。

类似的极端场景,可能还包括化工厂泄漏、监狱暴动等只能靠想象预判的不可抗力事件。

这一年的春节,每个中国人都过得不凡。

丑陋的半兽人“新冠”携病毒大军兵临城下,全国的数据中心和中土所有部落一起,都在打一场保卫战。
------分隔线----------------------------


网上报名

  • 免费热线报名

    4000-838-373

  • 在线咨询

    夏老师

    QQ:1278312358

    立即咨询

预约免费试课

  • 我已阅读并同意

讲师介绍 About Instructor

推荐课程 Hot news

您有什么问题想要咨询我们呢?

电话客服咨询

4000-838-373

周一至周五 08:30 - 17:30

  • 微信

    扫一扫,领取更多优惠

  • 关闭

    *请将您的问题告诉我们(3-5个工作日内由专员回答给您)

    问题分类:
    • 报名咨询
    • 售后服务