存档

作者存档

使用graphviz画图

2020年12月1日 没有评论

Graphviz是大名鼎鼎的贝尔实验室的几位牛人开发的一个画图工具。它的理念和一般的“所见即所得”的画图工具不一样,是“所想即所得”。 Graphviz提供了dot语言来编写绘图脚本。

一、安装 

graphviz可以使用在windows上,也可以使用在lin[......]

Read more

分类: 开源软件 标签:

CMDB建设从调研到落地

2020年11月24日 没有评论

近期着手参与了CMDB应用的相关工作,这里就CMDB整体的建设思路做个简单的小结。CMDB的建设整体过程,我大致根据自已参与的经验总结为几个阶段:前期技术架构调研---各CMDB使用方需求调研---形成目标功能---投入建设---形成能力---持续关注。

一、前期技[......]

Read more

分类: 平台架构 标签:

SRE运维(九)“面向对象”的监控

2020年10月9日 没有评论

一、SRE监控的目标

根据SRE监控的目的不同,可以将监控进行功能性分类,具体如下:

  • 在需要人工介入的情况下,发出告警;(对应SLO和健康度打分)
  • 调查及诊断这些问题;(根因智鉴)
  • 展示有关于系统的可视化信息;([......]

    Read more

分类: 协同敏捷自动化 标签:

SRE运维(八)监控数据源

2020年10月8日 没有评论

运维行业有句话:“无监控、不运维”,监控是及时发现现网问题的一种手段,并通过这种手段及时介入进行处理。不过在设备量不多的情况下,监控是比较容易处理的,我们可以配置的尽可能全,现网设备有个风吹草动,就可以让系统报出来,但设备随着1000台、1万台、10万台这样的规模上起来的时候,监控也就变得尤为[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(七)错误预算和持续改进

2020年10月7日 没有评论

一、SLO目标与错误预算

SRE体系中的SLO制定有一个比较重要的原则就是需要获得利益干系者的认同。这些干系者包括但不限于产品经理、产品开发人员、运维人员。产品经理需要为用户负责,当SLO的指标值低于目标值时,显然会得不到用户的满意,不过产品经理也不能追求100%的SLO可靠性,这[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(六)如何正确制定SLO

2020年10月6日 没有评论

设计SLO的目的是什么?设定SLO目标是面向客户感知的,当系统的表现高于SLO阀值时,用户感知是满意的,在低于这个值时,用户可能就会要抱怨了。不过客户满意度这是个模糊的概念,而且在不同情况下,即像你的系统的SLO达到了100%,客户可能也是不满意的。为什么会这样?先从SLO的平衡开始。

[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(五)从SLO开始

2020年10月5日 没有评论

一、SLO的重要性

SLO是(service level objective)服务质量目标的简称,其是用于定量的描述服务可靠性的程度,它是SRE实践的核心。引用google工作手册上的一段话:SRE的核以职责并不只是将”所有工作“都自动化,并保持on-call状态。其实SRE们的日[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(四)SRE的组织闭环

2020年10月4日 没有评论

mycre

SRE的组织闭环在不同的公司和不同的业务线可能会有不同的方式进行闭环,我现在所有企业是以提供IAAS层服务的,由于设备量是万为单位的,根据需求,企业在原有专业组和各软硬件设备提供商之外,组建了CRE架构团队、总控调度团队、质量管控团队。这里对其分工和google体系中的提到内容[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(三)SRE黄金准则

2020年10月3日 没有评论

srework

SRE的工作是由日常运维、工具研发、应急管理三部分构成的,这个在之前也提到过了。但在具体落地的时候对应的有八大黄金准则。这八大黄金准则不是GOOGLE提出的,也不是我杜撰的,是GNSEC会议上有企业提出的总结,既然有这样的总结,我想也是有一定的道理的,这里分别做下说明。

[......]

Read more

分类: 协同敏捷自动化 标签:

SRE运维(二)SRE与devops

2020年10月2日 没有评论

在IT运维技术里有很多名词,除了SRE之外,还有devops、chatops、aiops,很多人很容易被这么多ops搞蒙,而且很多人会觉得有了这个干吗还要搞那个?是不是互相抄袭理念。本偏呢就重点说下SRE和devops,因为这两个出现的最早。

一、出现时间

上一篇我们了[......]

Read more

分类: 协同敏捷自动化 标签: