机房360首页
当前位置:首页 » 动力监测 » 机房环境动力监控系统功能介绍及设计需求规划和选择

机房环境动力监控系统功能介绍及设计需求规划和选择

来源:中国绿色数据中心 作者:机房360 更新时间:2009/5/8 12:54:33

摘要:在信息化建设中,机房运行处于信息交换管理的核心位置。机房内所有设备必须时时刻刻正常运转,否则一旦某台设备出现故障,对数据传输、存储及系统运行构成威胁,就会影响到全局系统的运行。如果不能及时处理,更有可能损坏硬件设备,耽误业务系统运转,造成的经济损失是不可估量的。


四、机房动力环境监控系统实现的功能
监控系统需要实现的主要功能和楼宇自控项目基本相同,概括起来有以下几个主要方面。
(一)集中实时监视功能
传统的机房管理采用的是每天定时巡视的制度,比如早晚各一次检查,并且将设备的一些核心运行参数进行人工笔录后存档。这样取得的数据只限于特定时段,工作单调而且耗费人力。而集中实时监控功能可解决此问题。
比如对于UPS电源的运行,用户一般比较关心负载功率、总体负载率、三相是否平衡等参数。如果没有集中监控,用户需要分别到机房内的配电室,现场查看UPS的相关运行参数。而实时监控系统通过通信采集设备将当前被监视设备的运行参数采集上来,实时显示在监控电脑屏幕上,免去了用户到不同的设备跟前查看数据的麻烦,如果有必要,随时都可以在办公室内查看。
(二)报警和事件功能
报警指机房运行中出现异常情况,比如停电事故、漏水事故等。报警的发生意味着机房的运行受到影响,其严重程度可用"优先级"的概念来定义。一般监控系统均可设置几十到上千个优先级以区别报警的严重程度。机房内的报警优先级一般划分为10级即可。
事件指机房运行中发生的一些正常的状态改变或人为操作。事件不是异常情况,因此不需要像报警一样立即通知用户进行处理。但是往往需要进行记录,以便日后检查。比如修改精密空调的设置温度,这就是一个正常的操作事件,但对修改时间、修改人的这些信息进行记录是有必要的。
报警功能是机房动力环境监控系统最重要的一项功能,原因在于机房内设备和系统运行的安全性要求很高。报警发生后,系统应对报警事件进行记录,并迅速通知值班人员或管理人员进行处理。报警发生后,一般按以下步骤来进行处理:
(1)通知。首要的是将报警信息告知给相关人员。
(2)确认。表明已经知道报警的发生,正在处理。但此时报警仍然存在,没有消失。
(3)消除。经过处理,故障消失,设备恢复正常,报警也随之消失。报警的通知主要采用以下几种模式来实现。
1.屏幕显示报警
这是最基本的方法,但也往往是报警信息最详尽的模式。通过在监控电脑屏幕上显示醒目的图案和文字来告知用户。报警文字是关键的信息,一般至少需要明确指出每次报警的几个关键参数:报警时间、报警设备、故障内容、优先级、紧急解决办法等。其中紧急解决办法是一个很有必要的功能,因为机房内的辅助设备种类多,最基本的紧急解决办法就由专业人员尽速响应和处理,因为报警涉及配电、UPS电源、空调、消防等几个系统,现场值班人员并不能对每种设备都精通,因此能在第一时间给出紧急处理办法是非常必要的,甚至一个故障设备厂家的维护电话号码都能解决大问题。
屏幕报警的缺点在于,如果监控电脑旁没有人,或者没有人注意,则报警可能被延误。
这种模式的报警通知面比较小,不能及时传播给专人。这种报警模式如果结合网络传输,会提高效率,后面章节将会予以介绍。
2.本地语音报警
当报警发生时,监控系统自动通过扬声器播放报警语音,将报警消息传递给现场人员。其传递消息面比屏幕显示报警要广,但也限于一个房间内。其优点是非常人性化,缺点是传播面仍然不广,而且不能定人传播。
3.电话拨号报警
当报警发生时,监控系统自动通过电话网,拨通系统预设的号码,对方接听后,自动播放报警语音,通过电话将报警消息传递给相关人员。
这种模式的优点是能够实现定人播报。如果和管理责任人结合起来,会有比较好的效果。比如管理UPS和电源系统的人员是A,管理空调系统的人员是B,还有其他几个人C、D、E也帮助进行辅助管理。则当发生UPS故障后,系统直接拨打A的电话,减少了中间环节。但是实现此项功能,监控系统必须具备以下几个能力,否则效果会大打折扣。
(1)具有线路是否通畅的判断能力。当拨打的电话号码占线,系统自动停止这个号码的拨号。
(2)具有接听者是否接听的判断能力。当接听者接听后,系统开始播报报警语音。
(3)具有确认机制。当接听者接听后,需要按下某个预先定义的按键进行确认操作,表明他已明确知道这个报警的内容。
(4)具有连续重拨的功能。例如,当系统拨打A的手提电话,如果占线或不在服务区,则自动按照系统内预设的顺序(假设是A→B→C→D→E)拨打B的电话。如果B接听了但没有确认,再自动拨打C的电话……直到有人确认为止。
从上面的电话报警过程来看,电话拨号通知的报警信息要传达到预先指定的人员,并不是一件顺利的过程,因此,确认机制是最为重要的。目前市场上销售的监控系统并不都具有完善的电话报警手段。
电话报警可通过两种设备实现:语音Modem和电话语音卡。
4.手机短消息报警
随着通信业和短信业务的迅猛发展,通过手机短信发送报警信息成了一个有效的手段。其优点在于可以通知很多人,通知面广。但这种方式仍缺少有效的确认机制,仍然无法判断是否真正通知到指定的人"不过其发送面广的优点可以适当弥补这一不足。
5.E-mail报警
通过网络,将报警信息以电子邮件的形式发送到个人。但此模式的及时性不好,难以保证让相关人员在第一时间得知消息。
(三)运行历史数据记录和趋势功能
对机房的管理者来说,除了系统的报警功能以外,系统的另一个重要的功能就是历史数据和趋势功能。因为机房只是一个存放计算机和网络设备的场所,随着事件的推移,机房内的设备数量、型号等都会发生变化,按照目前的趋势,一般都是越来越多。因此,从机房管理角度,需要能够拥有机房设备运行的历史资料,这样可以通过分析,找出发展趋势、发现故障隐患。从而大幅度提高机房的管理水平。
历史数据和趋势功能主要实现对机房运行的关键参数进行长期的记录,通过调用、查看历史趋势图,进行一些统计分析等。对于数据的记录,一定要选择"关键参数",而不能什么参数都进行记录,同时应注意参数记录的频率。因此,详细了解用户的需求非常重要。因为,如果记录数据量太大,对基于PC架构运行的监控系统,其存储能力受到比较大的限制。比如,功率参数是一个关键参数,如果每秒记录一次参数值,假设在数据库中占用4个字节,则一年就需要记录31536000次,需要的硬盘容量是126M,而100个参数就需要几十个G的容量,在调用数据时将会非常缓慢,记录数据时因对系统要求很高,也容易造成系统瘫痪。这个问题虽然可以采用实时数据库来解决,但费用昂贵。因此,对于需求的具体分析非常必要。按照机房运行的规律,建议模拟参数记录频率在lOmin以上一次。报警数据则因其量小,发生频率低,应全部记录。这样既可保证资料的相对完善,又极大地减少了数据量。
(四)用户管理功能
  用户管理主要是对监控系统的使用者进行权限管理,避免末授权的人员随意修改参数设置或者查看。而授权需要进行分级控制,不同级别的用户只能进行自己这个级别内所允许的操作。
(五)计划安排功能
通过事件计划表,定时执行一些操作,比如系统资料的备份、下班定时关灯等。该功能在机房内使用不多,但随着机房监控系统的不断完善,可以满足更多的用户需求。
(六)报表功能
数据报表在工控系统中是必不可少的一部分,是数据显示、查询、分析、统计、打印的最终体现,是整个控制系统最终结果输出的重要组成部分,是对机房监控过程中系统监控对象的状态的综合记录和规律总结。一般有实时数据报表、历史数据报表(班报表、日报表、月报表等)。用户通过报表的过滤器选项,将自己感兴趣的内容打印出来,便于分析存档。
(七)远程管理功能
远程管理主要是指利用目前日益完善的网络资源,使操作人员不再局限在监控主机旁操作,而能够在其他地点对系统进行控制。一般监控主机安装在机房的监控室内,但并不是所有的机房都是24h有人职守。通过远程管理,操作员可以在办公室、外地等地进行管理,消除了地域限制。比如省级机房和地市级机房,如果都设置全职管理员的话,人力资源上浪费较大。而通过网络,可以将监控系统在省里集中监控,地市上不再需要设置专人。当运行有问题时,通过前面的多种报警通知模式,省上和地市均可得到消息,从而可以快速解决问题。
(八)运行设置和控制功能
除了主要的监视功能,系统还应具备控制能力。在大多数机房中,控制对象主要是非电源类设备,比如空调、通风、照明等系统。由于电源设备的可靠性要求极高,进行控制操作时(比如开/关机等)很可能因为误操作造成机房瘫痪,因此不进行控制,只进行监视。
(九)安全冗余功能
由于机房环境动力监控系统监视着机房的运行,如果自身出现故障,将无法进行监视,降低了管理的安全性。因此,在要求机房有很高的安全管理水平时,往往采取冗余的办法解决自身的可靠性。一般通过以下两种方式实现。根据对可靠性要求的高低和实际故障隐患的大小,两种方式既可同时使用,也可单独采用。
采控设备的冗余:负责监控计算机与现场被监控设备通信的采控设备承担着双向的数据传输工作,对其备份可以提高传输的可靠性。
监控计算机的冗余,由于监控系统一般均运行于PC平台的硬件上,而且操作系统以Windows200O和XP为主,因此,计算机硬件、操作系统和监控软件自身的故障都会造成系统停止工作。可以通过局域网的TCP/IP协议将两台装有同样软件的计算机配置成热备份冗余运行,一台为主机,一台为从机。
相对而言,计算机和软件系统出问题的概率高,对机房内的监控做冗余,建议做计算机的冗余,即采用双机热备份方式。
双机热备主要是实时数据、报警信息和变量历史记录的热备。主/从机都正常工作时,主机从设备采集数据,并产生报警和事件信息。从机通过网络从主机获取实时数据和报警信息,而不会从设备读取或自己产生报警信息。主/从机都各自记录变量历史数据。同时,从机通过网络监听主机,从机与主机之间的监听采取请求与应答的方式,从机以一定的时间间隔(查询间隔)向主机发出请求,主机应答表示工作正常,主机如果没有作出应答,从机将切断与主机的网络数据传输,转入活动状态,改由下位设备获取数据,并产生报警和事件信息。此后,从机还会定时监听主机状态,一旦主机恢复,就切换到热备状态。通过这种方式实现了热备。当主机正常运行,从机后启动时,主机先将实时数据和当前报警缓冲区中的报警和事件信息发送到从机上,完成实时数据的热备份。然后主/从机同步,暂停变量历史数据记录,从机从主机上将所缺的历史记录文件通过网络拷贝到本地,完成历史数据的热备份。这时可以在主/从机组态王信息窗中看到提示信息"开始备份历史数据"和"停止备份历史数据"。历史数据文件备份完成后,主/从机转人正常工作状态。当从机正常运行,主机后启动时,从机先将实时数据和当前报警缓冲区中的报警和事件信息发送到主机上,完成实时数据的热备份。然后主/从机同步,暂停变量历史数据记录,主机从从机上将所缺的历史记录文件通过网络拷贝到木地,完成历史数据的热备份。这时也可以在主/从机的组态主信息窗中看到提示信息"开始备份历史数据"和"停止备份历史数据"。历史数据文件备份完成后,主/从机转人正常工作状态。
双机热备的构造思想是主机和从机通过TCP/IP网络连接,正常情况下主机处于工作状态,从机处于监视状态,一旦从机发现主机异常,从机将会在很短的时间之内代替主机,完全实现主机的功能。例如,1/0服务器的热备机将进行数据采集,报警服务器的冗余机将产生报警信息并负责将报警信息传送给客户端,历史记录服务器的冗余机将存储历史数据并负责将历史数据传送给客户端。当主机修复重新启动后,从机检测到了主机的恢复,会自动将主机丢失的历史数据拷贝给主机,同时,将实时数据和报警缓冲区中的报警信息传递给主机,然后从机将重新处于监视状态。这样即使发生了事故,系统也能保存一个相对完整的数据库以及报警信息和历史数据等。

本文地址:http://www.jifang360.com/news/200958/n2651149.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
  • 上一篇:没有了
  • 相关评论
    正在加载评论列表...
    评论表单加载中...
    • 我要分享
    更多
    推荐图片