摘要:随着数字中国建设的推进以及数字化转型成熟标准的推广与实施,将会有效推动数字经济的发展,促进数字化技术的发展和在各行各业各类组织中的应用以及与各行各业的深度融合,促进数字产业化与产业数字化。也给数据中心基础设施、算力中心的发展提出了挑战。 |
赵勇祥,数据中心国家标准编制人,数字化转型国家标准编制人。曾任中国电子工业标准化技术协会信息技术服务分会副会长,现为全国公共安全基础标准化技术委员会(TC351)委员、全国信息技术标准化技术委员会信息技术与可持续发展分技术委员会(TC28/SC39)委员、全国信息技术标准化技术委员会信息技术服务分技术委员会(TC28/SC40)委员、国家标准技术审评中心技术审评专家、国家互联网数据中心产业技术创新战略联盟技术专家委员会副主任委员、中国电子学会绿色数据中心技术委员会委员、中国数据中心工作组专家技术委员会委员、中国数据中心标准联盟专家委员、华为业务连续性管理特约专家。
一、宏观政策力推数据中心发展
近年来,国家陆续发布了多项国家战略,包括网络强国战略、国家大数据战略、中国制造2025等等,不仅一些典型应用例如智慧城市、智慧交通等上升为国家战略,一些重要的技术和方案,例如云计算、物联网、人工智能、CPS(信息物理系统)、互联网+等,也已经成为国家战略。数据中心成为支撑这些国家战略落地的关键基础设施,各行各业也将对数据中心越来越依赖,数据中心在国民经济中发挥越来越重要的关键作用。
据2021年6月国家发改委发布的来自国家信息中心的统计数据,“占我国全社会用电量约2%的数据中心,支撑了占全国GDP约36.2%的数字经济规模(已剔除这些业务中与数据中心不直接相关的部分)”,数据中心在国民经济中发挥越来越重要的关键作用。自2020年起,数据中心创造的数字经济价值每年以两位数同比增长。随着各行各业数字化转型逐步推向深入,这一比例还会继续提升,数据中心对提升全社会生产效率和全要素生产率作用巨大。
2023年2月,中共中央国务院印发《数字中国建设整体布局规划》,明确数字中国建设要夯实数字基础设施和数据资源体系两大基础。
国务院及各部委还陆续发布了《国务院关于加强数字政府建设的指导意见》、《关于深化智慧城市发展推进城市全域数字化转型的指导意见》、《数字乡村建设指南2.0》等等多项不同领域数字化和数字化转型的指导意见,全力推进数字中国建设。
为了做好各领域数字化建设的技术标准支撑工作,截至2023年10月,我国共发布数字化相关国家标准和行业标准共205项,分布在纺织、机械、金融、电力、电子、通信、文化等25个行业,包括:GB/T41421-2022《数字化试衣虚拟服装用术语和定义》、GB/T41392-2022《数字化车间可靠性通用要求》等108项国家标准;金融行业标准JR/T0271—2023《金融数字化能力成熟度指引》、JR/T0269—2023《银行业普惠金融业务数字化模式规范》、电力行业标准DL/T2568—2022《电力行业数字化审计平台功能构件与技术要求》、通信行业标准YD/T4397《政务数字化成熟度评价模型》等97项行业标准。
上述205项国家和行业标准中涉及数字化转型的仅有GB/T23011-2022《信息化和工业化融合数字化转型价值效益参考模型》一部标准,并且局限在两化融合领域。
随着数字化技术注的深入应用,原生于数字世界的逻辑,反过来影响真实世界,组织不得不在治理架构、组织文化、流程、资源、保障等方方面面做出改变。没有以业务流程运营为核心的组织变革支持,没有适应新质生产力的生产关系,也就是只关注数字化,却不去思考转型,结果往往就是数字化越努力,管理越混乱!为此,2023年11月27日GB/T43439-2023《信息技术服务数字化转型成熟度模型与评估》国家标准获批发布,2024年6月1日正式实施,是我国第一部适用于各类产业、行业和各类组织的,以信息技术为依托的通用的数字化转型国家标准。
这些政策和标准的发布,使得各行业数字化转型以及数字中国建设进入快车道,不仅会使数据中心创造的价值在全国GDP的占比持续快速提升,而且在银行业后,还将诞生更多对数据中心和信息技术高度依赖的行业,数据中心对提升全社会生产效率和全要素生产率作用巨大。
随着数字中国建设的推进以及数字化转型成熟标准的推广与实施,将会有效推动数字经济的发展,促进数字化技术的发展和在各行各业各类组织中的应用以及与各行各业的深度融合,促进数字产业化与产业数字化。也给数据中心基础设施、算力中心的发展提出了挑战。
二、建设好数据中心
我们必须要建设好数据中心,为数字中国建设持续提供充足的场地和算力保障。
为此,我国展开了“东数西算”工程建设,工信部等六部门联合印发了《算力基础设施高质量发展行动计划》。我国将建设更多的场地服务数据中心、算力服务数据中心,业务处理数据中心。这些数据中心除了提供通用算力外,还能够提供超算算力、智算算力。
数据中心运营组织将面对高密度、低碳、节能、绿色可持续发展等方面的多项挑战,建设不同可用性等级、绿色等级的数据中心基础设施。
为了支持建设好这类设施,我国先后发布了GB/T2887《计算机场地通用规范》、GB50174《数据中心设计规范》、GB/T34982《云计算数据中心基本要求》等等多项国家标准,并且正在编制《绿色数据中心评价规范》、《算力设施工程技术标准》、《数据中心冷板式液冷系统技术规范》等多部国家标准,并且正在将ISO/IEC22237《信息技术数据中心设备和基础设施》系列国际标准等同采用为国家标准。
三、运营好数据中心
在建设好数据中心的基础上,我们还必须运营好、使用好数据中心。
由于越来越多的行业和领域对数据中心高度依赖,数据中心能否正常发挥作用,对社会的影响巨大。在全球范围内,出现过很多由于数据中心不能正常发挥作用而导致的灾难。例如:
2024年6月27日印尼国家数据中心遭Lockbit勒索软件变种攻击,导致服务中断。超过210家中央和地方政府机构受到波及,其中以移民边检服务受影响最为严重,中断了约3天时间,这导致机场排起长队。印尼通信部长因此被公众请愿引咎辞职。
2024年6月23日上午7时许香港国际机场IT基础设施故障,服务中断,仿佛回到了旧启德机场的年代,持续超过23个小时。
2024年5月,由于谷歌云工程师操作失误,管理着1250亿美元资产的投资公司UniSuper的整个云环境被删除。虽然UniSuper做了灾备,并部署在不同的地理位置,以确保服务的连续性,但由于云订阅账户被删除,导致两个地区的数据都被删除了。不过幸运的是,UniSuper在另一家云服务商那里存有的备份,成为了他们的救命稻草,但是恢复业务花了超过一周的时间,其62万会员一周都无法访问。被称为“无双级”大事故。
2024年4月8日15点23分腾讯云故障持续了近87分钟,被称为云计算史诗级二翻车……
2023年12月3日,“腾讯视频崩了”登上微博热搜。
2023年12月1日,上海医保系统瘫痪,无法进行结算。
2023年11月27日晚,因系统故障,滴滴服务异常,经技术团队连夜修复,次日上午滴滴网约车等服务已恢复,骑车等其他服务还在恢复中;
2023年11月12日,就在“双十一”后的第二天,“阿里云盘崩了”的消息一度冲上微博热搜,连同冲上热搜的还有诸如淘宝、闲鱼、钉钉等阿里云支持下的其他阿里官方产品;被称为云计算史上史诗级灾难。11月27日,部分地域云数据库控制台访问异常,又一次出现服务异常;
2023年11月9日,工银金融服务(FS)遭受勒索软件攻击,导致部分FS系统中断。
2023年11月8日,OpenAI旗下ChatGPT和API出现“严重停机”(MajorOutage)事件,整个故障的时间大致持续了100分钟。
2023年10月14日下午,新加坡Equinix数据中心突发中断,新加坡的星展银行(DBS)和花旗银行的银行访问和支付服务出现困难。
2023年3月29日,某运营商数据中心冷冻系统故障导致唯品会业绩损失超亿元、影响持续12小时,腾讯旗下的微信和QQ等业务出现崩溃状况,参保患者无法实时结算医保费用……
2022年4月12日早上,菲律宾马尼拉最高法院的一个数据中心起火。导致菲律宾最高法院的网站长时间瘫痪。据《马尼拉时报》报道,最高法院的首席公共信息官表示,UPS发生了爆炸。
2021年12月,雅加达CyberOne数据中心发生火灾,两人丧命,据报道该数据中心的服务器发生了爆炸。尚未披露任何关于火灾详细原因。
2021年3月,属于OVHclound的斯特拉斯堡数据中心在一起大火中被烧毁,360万个网站下线。据信造成那场火灾的主要原因是UPS系统,当地消防部门最近出具的一份报告指出了存在几处明显的不足,但至今也没有对火灾原因给出解释。
2020年8月,澳洲电信Telstra位于英国首都伦敦的托管数据中心由于UPS故障引起火灾并引起宕机。当地消防部门共调集了4辆消防车和25名消防员到场救援。
2016年4月22日,某公司北京亦庄数据中心UPS升级改造过程中,因供电中断,导致机房全部设备断电,系统宕机,73家银行的核心、支付、网银、手机银行等业务全部中断,涉及全国12个省份。
2013年6月23日星期日,某大行数据中心因夜间给DB2数据库打补丁,导致上午系统运行缓慢,本可以更快速恢复服务,又因处置不当,导致全行业务出现近一小时的“瘫痪”。该行营业网点因无法“取钱”,市民误以为“闹钱荒”,导致包括该行在内的各家银行网点出现挤兑现象,造成了严重的社会影响。
上面提供场地服务、算力和平台服务的数据中心哪个没有冗余和容错设施?哪个不满足相关的建设标准要求?上面提供业务处理服务的数据中心哪个没有进行灾备建设?但是仍然中断事件频发。随时可能坍塌的数字基础设施是我们需要的吗?
在数字中国建设和全域数字化转型的背景下数据中心服务的中断不再是数据中心自己的事,已经成为一个系统性的社会风险,数据中心安全生产成为总体国家安全观的重要组成部分,直接关系到企业的根本,也给数据中心从业者带来新的挑战。
员工都会有疏忽、设备都会出故障、软件都会有Bug、新技术的应用也会引入新的风险……但是会不会因此导致灾难,就要看业务连续性管理的水平了。
2023年5月国家市场监督管理总局国家标准化管理委员会发布了GB/T42581-2023《信息技术服务数据中心业务连续性等级评价准则》,自2023年12月1日起实施,将推动作为数字中国的发动机和数字经济发展压舱石的数据中心量化升级,逐渐成熟,详见图1所示。确保数据中心及其所支撑的数字经济这艘巨轮始终在正确的航道上乘风破浪,使命必达!
根据国家标准,数据中心业务连续性等级自低向高依次为起始级、发展级、稳健级、优秀级和卓越级,并用一、二、三、四、五表示,详见图2所示。每个等级表明数据中心业务连续性的能力水平,详见图3所示。较高的等级涵盖了低于其等级的全部要求.
1)起始级(一级):数据中心拥有开展业务活动所需的基本设施,缺乏开展业务连续性管理工作的意识。数据中心在中断事件发生时,主要依赖数据中心现有的资源和措施,以及相关人员的个人能力来维持和恢复运营。
2)发展级(二级):数据中心拥有开展业务活动所需的基础设施,数据中心的业务连续性管理工作已有简单规划。数据中心为应对中断事件,在机制、资源、措施及人员能力方面开展了预先准备,但这些准备工作在充分性和有效性方面存在明显的不足。
3)稳健级(三级):数据中心拥有开展业务活动所需的基础设施以及冗余设施,在冗余能力范围内,不因一般故障而导致业务中断。数据中心的业务连续性管理工作经过系统的策划,并且有措施确保相关工作受控执行,详见图4所示。数据中心为应对中断事件,在机制、资源、措施及人员能力方面都有较充分和有效的准备。
4)优秀级(四级):数据中心拥有开展业务活动所需的容错设施,不应因单一意外事故而导致业务中断。数据中心的业务连续性管理工作是体系化的,并且注重通过各种措施确保相关工作得到严格执行。数据中心为应对可能发生的冲击在机制、资源、措施及人员能力方面开展了相当充分且有效的准备。此外,数据中心实现了绩效量化监测与评估,并予以持续改进。
5)卓越级(五级):数据中心拥有开展业务活动所需的容错设施,不应因单一意外事故而导致业务中断,对多因意外事故具有较强的容错能力。数据中心的业务连续性管理工作是严格体系化的,并且强调通过全面的技术措施确保相关工作严格且高效执行。数据中心为应对中断事件在机制、资源、措施及人员能力方面开展了充分的、有效的准备。数据中心在其经营活动中量化并监测其绩效,予以持续改进以追求更佳绩效。
做好数据中心业务连续性管理,确保数据中心在不同的灾难场景下,仍然能够提供预先确定的可接受的最低服务能力只是底线。
我们还必须构建服务能力,确保建设数据中心时所确定各项指标要求以及对数据中心使用方承诺的指标要求可以持续地达成。
为了构建和评价数据中心运营组织可持续达成服务目标的能力,我国发布了GB/T33136-2016《信息技术服务数据中心服务能力成熟度模型》,需建设33项能力,详见图5所示。该标准已经实施多年。结合多年实施中发现的问题,目前该标准已经完成修订工作。修订的新标准已经完成技术审查,即将进入批准阶段。新的标准对33个能力项进行了合并,并且补充了一些能力要求,形成35个能力项,并且对提供不同服务的不同类型数据中心提出了不同要求,详见表1所示。
四、数据中心数智化
我们还必须做好数据中心自身的数字化转型工作。
随着各行各业数字化转型的逐步深入、《数字中国建设整体布局规划》的落地实施,在银行业后,将诞生更多对数据中心和信息技术高度依赖的行业。作为数据中心稳定运行的赋能者、数据中心价值创造者的数据中心运维人员,在其中发挥着举足轻重的重要作用,也必须引入和应用更为先进的信息技术手段和方法,才能应对这一风险和挑战。数据中心作为数字中国建设的发动机和数字经济的压舱石,其自身的运维活动也必须要进行数字化转型,实现数智化运营。
国家标准GB/T43439-2023《信息技术服务数字化转型成熟度模型与评估》给出了通用的数字化转型的能力模型和分级模型,详见图6、7所示。
这个通用的分级模型,对应到数据中心领域数字化转型,不同等级对应的特征如图8所示。
从图8可以看出,目前国内大部分数据中心基础设施运营组织处于第二级向第三级爬升的阶段。
我们在数据中心数字化转型,实现数智化运营时,会应用很多数字化技术,随着数据中心越来越多地应用数字化技术,数字空间里的孪生体产生了一些现实世界中不存在特点,这些原生于数字世界的逻辑,反过来影响真实世界,例如:
CFD、BIM、虚拟现实等技术,让我们看到现实世界中无法看到隐蔽工程、气流组织等景象,可以让ECC大屏更丰富;
在数据中心孪生体——数字化工作空间中实现变更方案验证
在数据中心孪生体——数字化工作空间中进行节能降碳研究,形成最优方案
数字化技术本身具有一定脆弱性,面对一定威胁时会带来一定风险,产生信息安全问题(例如时钟同步、网络攻击、恶意程序……)
因此数据中心运营组织不得不在治理架构、组织文化、流程、资源、保障等方方面面做出改变,实现数字化转型,例如:
需要对运维数据进行治理并更深入地实现数据集成,使得数字化工作空间(数字孪生数据中心)可以更及时地获得更丰富的实时数据;
在数据中心变更流程中,关闭变更前除了要完成更新资产与配置信息、更新图纸等传统的过程,还必须在数字化工作空间完成更新,确保数字化工作空间中的数字孪生体与线下真实数据中心保持同步等;
应用更多的信息安全技术和采取更多的控制手段确保孪生体健康运行。
综上所述,未来数据中心的竞争,除了在建设等级等硬实力方面竞争外,更加是数据中心应对灾难场景的业务连续性管理能力、持续稳定达成目标的服务能力,以及数智化运营水平等软实力的竞争。
注:数字化技术digitaltechnology:数字化转型过程中用到的信息技术及其组合,包括但不限于云计算、大数据(数据分析)、移动计算、社交计算、物联网、智能化、边缘和个域计算、区块链以及网络安全技术等。【来源:GB/T43439-20233.1】
编辑:Harris