如何减少数据中心中最严重硬件故障？_机房360

摘要：内存故障是当今数据中心中最严重的硬件故障之一，众所周知，它严重影响了系统的可靠性、可用性和可维护性(RAS)。这些故障可能是由超出正常使用范围的多种因素引起的，包括制造缺陷以及极端的环境或操作条件。

　　硬件故障在大型数据中心和云服务基础设施中非常普遍，这些故障可能导致违反服务水平协议(SLA)并造成巨大经济损失。

　　内存故障是当今数据中心中最严重的硬件故障之一，众所周知，它严重影响了系统的可靠性、可用性和可维护性(RAS)。这些故障可能是由超出正常使用范围的多种因素引起的，包括制造缺陷以及极端的环境或操作条件。

　　虽然普遍接受的技术，例如，纠错码(ECC)和可纠正错误，基于阈值的预测性故障分析(PFA))可克服双列直插式内存模块(DIMM)的一些可纠正错误，但它们具有成本、可靠性、覆盖范围和性能方面的影响。

　　可纠正错误数量的激增可能导致服务器性能下降，甚至导致拒绝服务。此外，ECC和基于阈值的可纠正错误的PFA不能帮助克服无法纠正的错误，如灾难性故障通常导致崩溃。

　　对于严重依赖服务器可靠性、可用性和可维护性的组织，英特尔内存故障预测(Intel MFP)是理想的解决方案。对于当今的数据中心而言，提前预测未来的内存故障已变得至关重要。通过分析历史数据以预测潜在的灾难性事件，英特尔®MFP可以在内存故障事件发生之前对其进行预测。

　　该解决方案具有多项创新和原始功能。它基于历史数据来预测行、列和单元格中的微型故障，并使用低开销的在线学习方法来提高其预测精度并避免干扰关键的计算任务。

　　这也使Intel MFP能够为主动内存故障管理生成估计的内存运行状况评分，从而使用户能够采取相应的措施。英特尔MFP与供应商无关，并且可以与其他数据中心管理解决方案(包括英特尔数据中心管理器(Intel DCM))一起使用。

　　将与内存故障相关的服务器崩溃减少40%

　　在腾讯的一个案例研究中，英特尔MFP算法的初步协作测试显示出快速的结果，并将内存故障和系统停机时间减少了五倍。合作伙伴还通过在操作系统级别明智地避免出现内存故障，直到更换了该内存模块为止，从而扩展了此支持。

　　在与美团的类似案例研究中，该公司发现由于内存错误导致的服务器崩溃减少了40%。该公司通过将Intel MFP集成到其现有数据中心管理解决方案中，监控了服务器内存模块的运行状况。通过分析以前由其数据中心管理软件收集的数据，他们能够为每个DRAM模块生成预测分数，然后采取适当的措施来维护其SLA并最大化服务正常运行时间。

　　借助新功能，英特尔与全球领先的AMI合作，通过其BIOS、BMC和安全解决方案为全球互联数字基础架构提供电源、管理和保护，并决心将这种支持扩展到整个行业。

　　因为捕获和分析内存错误需要UEFI和BMC固件之间紧密的联系，所以AMI致力于使Intel MFP易于被现有和将来的服务器平台采用。

　　捕获错误后，它们将由BIOS记录，然后某些元数据信息将传递到BMC固件。然后，BMC固件将获取此元数据，并通过Intel MFP引擎运行，以计算内存模块的运行状况得分。当检测到新的错误时，AMI解决方案将跟踪每个内存模块的运行状况评分，并公开结果供系统管理员进行分析。

　　AMI的默认实现在BUI的Web UI中提供当前的内存模块运行状况得分信息，并通过遵循DMTF Redfish标准的RESTful API公开相同的内存运行状况得分信息。

　　RESTful API可轻松与现有数据中心管理软件集成。但是，对于那些不太愿意与自己的软件集成的数据中心，AMI提供了一个称为AMI Composer的数据管理工具，该工具开发为完全符合Intel Rack Scale Design和DMTF Redfish标准，它将汇总所有信息并通过一个基于Web的仪表板。

　　为数据中心和云服务提供商带来的直接好处

　　当然，在创建机器学习算法时，它实际上永远不会完成。当前的Intel MFP模型支持在具有Intel Xeon可扩展处理器的平台上运行的DDR4内存模块，并且Intel继续收集有关内存错误和内存模块故障的更多信息，以改进模型。

　　此外，当新的内存模块类型引入行业或对现有技术进行改进时，英特尔®MFP将为它们提供支持。

　　最重要的是，将对所有更新进行适当的分析以包含在MFP模型中，以便在英特尔更新MFP模型时，AMI将为提供给行业合作伙伴的现有技术提供易于实现的更新。

　　对于数据中心和云服务提供商而言，在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好处显而易见。改进了数据中心SLA。通过主动的内存运行状况评估和增强的内存页面脱机策略，可以降低DIMM故障率。

　　而且，最重要的是，更高的DIMM性能和可靠性可优化工作负载和虚拟机(VM)迁移决策，从而提高效率和灵活性，同时降低总拥有成本。

　　对于希望在配备AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系统上利用英特尔MFP的公司，建议他们要求其系统制造商将AMI连同用于MegaRAC BMC固件的带有Intel MFP选件包的AMI和具有英特尔内存故障预测功能的AMI一起包括在内。适用于Aptio UEFI固件的eModule。

　　责任编辑：张华

JIFANG360.com - 机房360

如何减少数据中心中最严重硬件故障？