存档

文章标签 ‘SRE’

SRE应急处置中的”六查”

2021年3月6日 没有评论

人食五谷杂粮难免会生病,IT系统运行中也会难免有”头疼发热“,人生病了医生会望、闻、问、切一套操作,IT系统也一样,在SRE运维中可以运用 ”六查 “ ----- 查关联关系、查变更信息、查操作记录、查告警信息、查性能数据、查机房工况来完成故障问题的定界定位。

一、查关联关系

[......]

Read more

分类: 平台架构 标签:

SRE运维(九)“面向对象”的监控

2020年10月9日 没有评论

一、SRE监控的目标

根据SRE监控的目的不同,可以将监控进行功能性分类,具体如下:

  • 在需要人工介入的情况下,发出告警;(对应SLO和健康度打分)
  • 调查及诊断这些问题;(根因智鉴)
  • 展示有关于系统的可视化信息;([......]

    Read more

分类: 协同敏捷自动化 标签:

SRE运维(八)监控数据源

2020年10月8日 没有评论

运维行业有句话:“无监控、不运维”,监控是及时发现现网问题的一种手段,并通过这种手段及时介入进行处理。不过在设备量不多的情况下,监控是比较容易处理的,我们可以配置的尽可能全,现网设备有个风吹草动,就可以让系统报出来,但设备随着1000台、1万台、10万台这样的规模上起来的时候,监控也就变得尤为[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(七)错误预算和持续改进

2020年10月7日 没有评论

一、SLO目标与错误预算

SRE体系中的SLO制定有一个比较重要的原则就是需要获得利益干系者的认同。这些干系者包括但不限于产品经理、产品开发人员、运维人员。产品经理需要为用户负责,当SLO的指标值低于目标值时,显然会得不到用户的满意,不过产品经理也不能追求100%的SLO可靠性,这[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(六)如何正确制定SLO

2020年10月6日 没有评论

设计SLO的目的是什么?设定SLO目标是面向客户感知的,当系统的表现高于SLO阀值时,用户感知是满意的,在低于这个值时,用户可能就会要抱怨了。不过客户满意度这是个模糊的概念,而且在不同情况下,即像你的系统的SLO达到了100%,客户可能也是不满意的。为什么会这样?先从SLO的平衡开始。

[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(五)从SLO开始

2020年10月5日 没有评论

一、SLO的重要性

SLO是(service level objective)服务质量目标的简称,其是用于定量的描述服务可靠性的程度,它是SRE实践的核心。引用google工作手册上的一段话:SRE的核以职责并不只是将”所有工作“都自动化,并保持on-call状态。其实SRE们的日[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(四)SRE的组织闭环

2020年10月4日 没有评论

mycre

SRE的组织闭环在不同的公司和不同的业务线可能会有不同的方式进行闭环,我现在所有企业是以提供IAAS层服务的,由于设备量是万为单位的,根据需求,企业在原有专业组和各软硬件设备提供商之外,组建了CRE架构团队、总控调度团队、质量管控团队。这里对其分工和google体系中的提到内容[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(三)SRE黄金准则

2020年10月3日 没有评论

srework

SRE的工作是由日常运维、工具研发、应急管理三部分构成的,这个在之前也提到过了。但在具体落地的时候对应的有八大黄金准则。这八大黄金准则不是GOOGLE提出的,也不是我杜撰的,是GNSEC会议上有企业提出的总结,既然有这样的总结,我想也是有一定的道理的,这里分别做下说明。

[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(二)SRE与devops

2020年10月2日 没有评论

在IT运维技术里有很多名词,除了SRE之外,还有devops、chatops、aiops,很多人很容易被这么多ops搞蒙,而且很多人会觉得有了这个干吗还要搞那个?是不是互相抄袭理念。本偏呢就重点说下SRE和devops,因为这两个出现的最早。

一、出现时间

上一篇我们了[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(一)SRE起源

2020年10月1日 没有评论

Site Reliability Engineering 中文可译为:网站可靠性工程,在现代互联网中,最早有Google提出,而该岗位对应的工程师工作内容的指导思想是:通过软件工程的方式开发自动化系统来替代重复和手工操作。其理论体系对应的有两本书《SRE:Google运维解密》和《google[......]

Read more

分类: 协同敏捷自动化 标签: