nagios 监控DELL服务器硬件

nagios和DELL OMSA配合可以实现对dell 服务器硬件的监控 ,OMSA是Openmanage Server Administrator 的缩写 。OMSA由以下几个组件组成:

srvadmin-base: Install only base OMSA, no web server
srvadmin-webserver: Install Web Interface
srvadmin-storageservices: Install RAID Management
srvadmin-rac4: Install components to manage the Dell Remote Access Card 4
srvadmin-rac5: Install components to manage the Dell Remote Access Card 5

以上组件可以根据需要单独装,也可以通过安装srvadmin-all (Install all OMSA components)全部安装 具体参看 DELL wiki 页

一、OMSA的安装及使用

DELL 针对redhat/centos等使用yum源的server做的有单独的yum源安装 。具体可以通过以下命令新增OMSA源安装所有组件:

wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash
yum install srvadmin-all

具体请参看 最新DELL OMSA源及安装方法

默认安装好的组件位置位于/opt/dell/srvadmin目录 。按如下操作,启动srvadmin services:

cd /opt/dell/srvadmin/sbin/
sh srvadmin-services.sh start

只有首次安装完后,需要执行此操作,以后重启的机器时,会自动启用srvadmin服务,因为其在/etc/init.d目录下有三个服务:dsm_om_connsvcd、dsm_om_shrsvcd、dsm_sa_datamgrd 。

启动完该服务后,可以通过https://本机IP:1311 打开DELL OMSA页面,其中登陆用户名密码是系统用户和密码 。

<img src="https://www.361way.com/wp-content/uploads/2013/08/omsa1.jpg" alt="omsa1" width="614" height="304" class="alignnone size-full wp-image-2707" />



<img src="https://www.361way.com/wp-content/uploads/2013/08/omsa2.jpg" alt="omsa2" width="585" height="360" class="alignnone size-full wp-image-2708" />

进入查看固件版本,可能会提示“固件版本过时” ,固件版本过时会造成check_openmanage nagios 插件检测时会有类似如下的提示:

Controller 0 [PERC 6/i Integrated]: Firmware '6.0.2-0002' is out of date

所以,安装完后,最好还要保持固件是最新的,升级固件的方法是:

yum install dell_ft_install
yum install $(bootstrap_firmware)
update_firmware --yes

注:以上操作的前提是先增加dell yum 源 ,另外升级完固件需要重新服务器生效

二、check_openmanage的安装及使用

check_openmanage只是一个perl的脚本,其使用的还是OMSA内部的命令和xsl模块。使用check_openmanage时,必须要安装 srvadmin-all,不然会报xsl not find 。check_openmanage 插件主页及说明 。

1、check_openmanage下载:

wget http://folk.uio.no/trondham/software/check_openmanage-3.7.11/check_openmanage 或
wget http://folk.uio.no/trondham/software/files/check_openmanage-3.7.11.tar.gz

注:两个文件的区别是,第一个下载的是单个perl文件,直接放到nagios的libexec目录就可以用;第二个下载的包含了windows 和 linux下用的版本,并且包含pnp4nagios模板 。

2、check_openmanage的使用

#默认用法
root@361way:[/usr/local/nagios/libexec]./check_openmanage  --only fans
FANS OK - 4 fan probes checked
#带输出数据的检测,主要配合pnp4nagios出图
root@361way:[/usr/local/nagios/libexec]./check_openmanage  --only fans -p
FANS OK - 4 fan probes checked|F0_System_Board_FAN_1=6750rpm;0;0 F1_System_Board_FAN_2=6600rpm;0;0 F2_System_Board_FAN_3=6450rpm;0;0 F3_System_Board_FAN_4=6750rpm;0;0
#debug 模式,输出详细信息
root@361way:[/usr/local/nagios/libexec]./check_openmanage  --only fans -d
   System:      PowerEdge 2950 III       OMSA version:    7.3.0
   ServiceTag:  JF91G2X                  Plugin version:  3.7.11
   BIOS/date:   2.7.0 10/30/2010         Checking mode:   local
-----------------------------------------------------------------------------
   Chassis Components
=============================================================================
  STATE  |  ID  |  MESSAGE TEXT
---------+------+------------------------------------------------------------
      OK |    0 | Chassis fan 0 [System Board FAN 1 RPM] reading: 6675 RPM
      OK |    1 | Chassis fan 1 [System Board FAN 2 RPM] reading: 6600 RPM
      OK |    2 | Chassis fan 2 [System Board FAN 3 RPM] reading: 6450 RPM
      OK |    3 | Chassis fan 3 [System Board FAN 4 RPM] reading: 6750 RPM

only后可以跟的检测项有:cpu、memory、storage、fans、batteries、voltage(电压)、temp、power等,像温度和转速之类的有默认告警值,可以在检测时通过-c -w 重新定义。想检测所有项可以使用:

root@361way:[/usr/local/nagios/libexec]./check_openmanage -b ctrl_fw=ALL/ctrl_driver=ALL -p
OK - System: 'PowerEdge 2950 III', SN: 'JF91G2X', 8 GB ram (8 dimms), 1 logical drives, 5 physical drives|T0_System_Board_Ambient=25C;42;47 F0_System_Board_FAN_1=6750rpm;0;0 F1_System_Board_FAN_2=6600rpm;0;0 F2_System_Board_FAN_3=6450rpm;0;0 F3_System_Board_FAN_4=6825rpm;0;0

点击查看pnp4nagios check_openmanage监控图

三、check_openmaage 配合nagios监控

nagios可以通过nrpe、snmp两种方式对DELL 主机进行监控,具体原理图如下:

<a href="https://www.361way.com/wp-content/uploads/2013/08/check_openmanage01.png"><img src="https://www.361way.com/wp-content/uploads/2013/08/check_openmanage01.png" alt="check_openmanage01" width="700" height="614" class="alignnone size-full wp-image-2709" /></a>

关于nagios的配置这里就不多说,无非先定义command,然后在cfg文件中配置监控内容,配置完成后,重启进程使配置生效 。需要特别注意的是无论是nrpe还是snmp方式,被监控主机都必须安装后OMSA 程序 。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注