SRE运维(九)“面向对象”的监控

一、SRE监控的目标

根据SRE监控的目的不同,可以将监控进行功能性分类,具体如下:

  • 在需要人工介入的情况下,发出告警;(对应SLO和健康度打分)
  • 调查及诊断这些问题;(根因智鉴)
  • 展示有关于系统的可视化信息;(运维大盘或监控大屏)
  • [……]

    Read more

SRE运维(八)监控数据源

运维行业有句话:“无监控、不运维”,监控是及时发现现网问题的一种手段,并通过这种手段及时介入进行处理。不过在设备量不多的情况下,监控是比较容易处理的,我们可以配置的尽可能全,现网设备有个风吹草动,就可以让系统报出来,但设备随着1000台、1万台、10万台这样的规模上起来的时候,监控也就变得尤为困[……]

Read more

SRE运维(七)错误预算和持续改进

一、SLO目标与错误预算

SRE体系中的SLO制定有一个比较重要的原则就是需要获得利益干系者的认同。这些干系者包括但不限于产品经理、产品开发人员、运维人员。产品经理需要为用户负责,当SLO的指标值低于目标值时,显然会得不到用户的满意,不过产品经理也不能追求100%的SLO可靠性,这在上文中[……]

Read more

SRE运维(六)如何正确制定SLO

设计SLO的目的是什么?设定SLO目标是面向客户感知的,当系统的表现高于SLO阀值时,用户感知是满意的,在低于这个值时,用户可能就会要抱怨了。不过客户满意度这是个模糊的概念,而且在不同情况下,即像你的系统的SLO达到了100%,客户可能也是不满意的。为什么会这样?先从SLO的平衡开始。

一[……]

Read more