SRE运维(五)从SLO开始

一、SLO的重要性

SLO是(service level objective)服务质量目标的简称,其是用于定量的描述服务可靠性的程度,它是SRE实践的核心。引用google工作手册上的一段话:SRE的核以职责并不只是将”所有工作“都自动化,并保持on-call状态。其实SRE们的日常任务和[……]

Read more

SRE运维(四)SRE的组织闭环

mycre

SRE的组织闭环在不同的公司和不同的业务线可能会有不同的方式进行闭环,我现在所有企业是以提供IAAS层服务的,由于设备量是万为单位的,根据需求,企业在原有专业组和各软硬件设备提供商之外,组建了CRE架构团队、总控调度团队、质量管控团队。这里对其分工和google体系中的提到内容也简单的做[……]

Read more

SRE运维(三)SRE黄金准则

srework

SRE的工作是由日常运维、工具研发、应急管理三部分构成的,这个在之前也提到过了。但在具体落地的时候对应的有八大黄金准则。这八大黄金准则不是GOOGLE提出的,也不是我杜撰的,是GNSEC会议上有企业提出的总结,既然有这样的总结,我想也是有一定的道理的,这里分别做下说明。

SRE运维(二)SRE与devops

在IT运维技术里有很多名词,除了SRE之外,还有devops、chatops、aiops,很多人很容易被这么多ops搞蒙,而且很多人会觉得有了这个干吗还要搞那个?是不是互相抄袭理念。本偏呢就重点说下SRE和devops,因为这两个出现的最早。

一、出现时间

上一篇我们了解到Googl[……]

Read more

SRE运维(一)SRE起源

Site Reliability Engineering 中文可译为:网站可靠性工程,在现代互联网中,最早有Google提出,而该岗位对应的工程师工作内容的指导思想是:通过软件工程的方式开发自动化系统来替代重复和手工操作。其理论体系对应的有两本书《SRE:Google运维解密》和《google[……]

Read more