SRE应急处置中的"六查"

人食五谷杂粮难免会生病,IT系统运行中也会难免有”头疼发热“,人生病了医生会望、闻、问、切一套操作,IT系统也一样,在SRE运维中可以运用 ”六查 “ —– 查关联关系、查变更信息、查操作记录、查告警信息、查性能数据、查机房工况来完成故障问题的定界定位。

一、查关联关系

先查看[……]

Read more

CMDB建设从调研到落地

近期着手参与了CMDB应用的相关工作,这里就CMDB整体的建设思路做个简单的小结。CMDB的建设整体过程,我大致根据自已参与的经验总结为几个阶段:前期技术架构调研—各CMDB使用方需求调研—形成目标功能—投入建设—形成能力—持续关注。

一、前期技术架构调研

[……]

Read more

NAS数据的自动采集

一、设计

公司设备较多,有时需要匹配一些设备之间的关系。这里以NAS存储和主机之间的关联关系。存储都分了那些lun,给了哪些主机使用?理清这些关系如果全靠纯手工来做是比较繁琐的。这时候可以借助自动化工具+采集脚本,自动完成入库操作即可。定期的跑下任备就行了。

使用df -t nfs输[……]

Read more

精简系统日志统一平台设计

一、平台背景

现在常用的日志统一汇总系统日志平台有几种:ELK、graylog或syslog-ng + 二次开发、ELK相关组件二次开发等。本篇的重点主要关注需要收集日志的一端。开始之前,先说下需求:现网有设备基本有5000台左右,系统运维和应用运维是分开来的。所以站在系统运维的角度来说,[……]

Read more