借助vSphere High Availability解决主机硬件降级问题_机房360

摘要：在全新vSphere 6.5中， Proactive High Availability通过和硬件厂商进行合作，及时排查问题并迁移虚拟机，能够有效防止主机出现硬件降级问题。

　　在全新vSphere 6.5中， Proactive High Availability通过和硬件厂商进行合作，及时排查问题并迁移虚拟机，能够有效防止主机出现硬件降级问题。

　　除了针对Distributed Resource Scheduler和Fault Tolerance的更新外，vSphere 6.5还包含了全新的Proactive High Availability特性，能够提升用户对于资源管理的综合体验。全新版本的 vSphere High Availability特性需要和 Distributed Resource Scheduler以及硬件厂商的代理客户端协同工作，在问题出现之前将虚拟机迁移到其他主机中。

　　设想这样的情况，服务器双电源模块中的一个出现故障或者某个CPU风扇停止工作，导致硬件传感器发送报警，虽然这些问题并不会影响系统正常工作，但是服务器的崩溃风险会变得非常高。因此将虚拟机从这些问题“主机”中转移，确保负载运行在集群的健康节点上是最为稳妥的做法。这样管理员就有机会修复硬件问题，重新将主机上线，同时，用户不会察觉到任何服务中断时间。

　　如何启用全新vSphere High Availability特性

　　如图A所示，为了启用Proactive HA (High Availability)特性，集群必须已经启用DRS(Distributed Resource Scheduler )，因为DRS能够利用vMotion将运行状态的虚拟机转移到其他主机中。硬件厂商提供的客户端代理——比如戴尔定制的 VMware ESXi 6.5，能够触发硬件报警，也是必要的组成部分。这种定制化镜像——其他厂商也会推出类似镜像——可以提供良好的硬件检查功能。

图A. 启用Proactive High Availability

　　之后在 vSphere Availability页面中，管理员必须定义如果出现硬件降级问题，系统需要如何应对。如下面的图B所示， Proactive High Availability提供了两种检查模式。根据硬件错误的严重等级不同，管理员仍然可以使用这台主机，但是必须满足DRS affinity规则。如果 affinity规则并不存在，并且所有虚拟机都可以运行在其他主机上，那么虚拟机就会被迁移到其他主机上。

图B.在vSphere Availability配置硬件降级行为

　　VSphere High Availability并不是唯一具有主动防护特性的工具;DRS也能够在集群实现一些主动保护功能。如果和vROps(vRealize Operations )一起使用，其能够基于之前的测量数据预测虚拟机将会何时出现使用高峰，并且将虚拟机迁移到其他主机中。

　　这种方式通常需要定义应对行为，DRS应对使用高峰的传统方式。DRS和vROps协同工作的原理非常简单：VROps从虚拟机收集并存储各种指标，之后使用这些指标计算动态阈值。VROps能够通过这种方式发现系统的异常，但是VMware工程师想出另外一种方式，通过记录虚拟机资源使用情况来预测资源消耗方面的重复性峰值。当然，这种方式在数据中心才能够发挥最大作用，虚拟机负载均衡遵循既定方案，办公室的用户每天几乎同一时间段开始工作或者相近的时间去吃午饭。

　　启用这种特性需要最新版本的vROps，现在为6.4，如图C所示，你可以看到一条到 vCenter Server的连接，也就是使用这种特性的集群。

图C.配置vRealize Operations 向vCenter发送数据

　　其他vSphere DRS 全新特性

　　在配置vROps向vCenter发送数据之后，就可以在集群中启用Predictive DRS了。启用之后，管理员需要坐来下，查看这些系统如何工作。和其他 vSphere High Availability主动响应版本一样，这是一种全新特性，因此其是否能够提升集群中资源的可用性还不得而知。需要说明的是这种特性只能应用在虚拟机数量不超过4000台的集群中。

图D. vSphere DRS全新特性

　　如图D所示， vSphere DRS还包含了其他三种全新特性：VM Distribution、Memory Metric for Load Balancing和CPU Over-Commitment.

　　VM Distribution允许管理员根据虚拟机数量、而不是资源使用情况来调整集群的虚拟机所在主机位置。管理员可能会遇到这种情况，一大组虚拟机运行在很少几台主机上，而其他主机上只有很少、甚至是没有虚拟机。这种情况会在服务器出现故障之后发生，当故障主机重新上线之后，集群拥有很多资源，DRS没有必要将虚拟机迁移到那台主机中，因此其资源使用率非常低。

　　只有当没有足够理由证明应该进行迁移时这种情况才会发生。如果虚拟机被平均分配到集群节点，相比于大量虚拟机运行在故障节点上，VM Distribution能够降低服务器故障所产生的影响。这种方式是负载均衡的备选方案，因此只有当资源负载均衡能够正常工作的时候虚拟机才会被平均分配。

　　最后两项控制资源负载均衡的设定需要和 overcommitment结合使用。 Memory Metric for Load Balancing允许管理员利用已经消耗的内存，而不是活动内存。如果管理员逐台检查虚拟机，就会发现其报告的是被消耗的所有内存。通过这种配置，虚拟机能够基于内存分配、而不是实际消耗的内存实现负载均衡。

　　CPU overcommitment技术允许管理员配置最大的vCPU to pCPU比例。比如，如果管理员将其设定为200%，那么就每个pCPU就能够支持两个vCPU。管理员能够配置的最大值为500%。这种限制防止集群对CPU资源的过度over-commitment。

　　责任编辑：DJ编辑

JIFANG360.com - 机房360

借助vSphere High Availability解决主机硬件降级问题