谷歌如何运行生产系统——SRE 的“50% 的项目工作时间”到底是什么?

问题描述

引用:“SRE 有 50% 的时间在工作。他们的剩余时间应该用于在项目工作中使用他们的编码技能。” (第 7 页)"

我正在读这本书,但真的看不懂。

什么是“项目工作”?

是生产代码还是ansible yaml?

解决方法

这里是 SRE @Google。

这意味着 - SRE 应该将至少 50% 的时间用于项目工作。换句话说,SRE 最多只能将 50% 的时间用于运营工作。如果运营工作消耗超过 50%,则表明相关的生产堆栈有通过承担更多项目实现自动化的空间。

运营工作包括处理生产中断/警报、管理服务供应或任何繁重的生产工作。项目工作包括开发监控系统、创建 CI/CD 管道或部署下一代全局负载均衡器。反向代理服务器等

这是 Google 的一个关键 SRE 理念,即每个团队最多应将 50% 的时间花在运营工作上。随着服务的增长,有必要开展项目以阻止运营需求在未来不成比例地增长。项目工作旨在及早解决问题,以免导致运营工作占用 SRE 时间的 50% 以上。