站点可靠性工程
站点可靠性工程(SRE)是一组原则和实践,结合了软件工程并将其应用于它基础设施和操作.[1]主要目标是创建高度可靠和可扩展软件系统。现场可靠性工程已被描述为特定的实施DevOps.[2][3][4]
历史
场地可靠性工程领域起源于谷歌与本·特雷诺(Ben Treynor Sloss)一起[5][6]他在2003年加入公司后创立了一个站点可靠性团队。[7]2016年,Google雇用了1,000多名网站可靠性工程师。[8]该概念于2003年起源于Google之后,扩展到更广泛的软件开发行业,其他公司随后开始聘请网站可靠性工程师。[9]该职位在较大的网络公司中更为普遍,因为小型公司通常不会按规模运作,因此需要专门的SRES。[9]组织采用了这个概念的人包括Airbnb,Dropbox,IBM,[10]LinkedIn,Netflix,[8]和Wikimedia.[11]根据Devops研究所2021年的一份报告,在一项对2,000名受访者的调查中,有22%的组织采用了SRE模型。[12][13]
定义
站点可靠性工程作为工作角色,可以由独奏者执行或在团队中组织,通常负责更广泛的工程组织中以下组合:系统:系统可用性,潜伏,表现, 效率,更换管理层,监视,紧急响应, 和容量规划.[14]站点可靠性工程师通常具有背景软件工程,系统工程, 或者系统管理.[15]站点可靠性工程的重点包括自动化,系统设计,并改进系统弹性.[15]
站点可靠性工程作为一组原则和实践,可以由任何人执行。SRE与安全工程预计任何人都会为良好的安全惯例做出贡献,但公司可能会决定最终为这项工作提供专家。相反,对于确保互联网系统的确保,公司可能会聘请安全工程师并确定并确保其可靠性目标,公司也可以雇用SRES。
网站可靠性工程也被描述为DEVOPS的特定实现,但它专门针对构建可靠的系统,而DevOps则更加集中。[2][3][4]
斯蒂芬·戈塞特(Stephen Gossett)写道内置一些公司将其运营团队重新命名为SRE团队,而有意义的变化很小。[9]对于被称为DevOps团队的运营团队而言,这也被认为是正确的。
原理和实践
已经有多次尝试定义站点可靠性工程原则的规范列表,但是尽管缺乏共识,但大多数定义通常包含以下特征:[1][16]
- 自动化或消除任何重复性的东西,这些重复性也具有成本效益,可以自动化或消除。
- 避免追求比严格必要的更可靠性。定义必要的是一种实践(请参阅下面的实践列表)。
- 系统设计偏向于降低可用性,延迟和效率的风险。
- 观察性,如在不必提前知道您想问的内容的情况下能够提出有关系统的任意问题的能力。[17]
网站可靠性工程实践的差异也很大,但以下列表相对通常被视为部分实施:
- 辛苦管理作为上述第一个原则的实施。
- 定义和衡量可靠性目标 - 切片,Slos和错误预算。
- 非抽吸大规模系统设计(纳尔斯)专注于可靠性。
- 设计和实施可观察性。
- 定义,测试和运行事件管理过程。
- 容量规划.
- 更改和发布管理,包括CI/CD.
- 混乱工程.
实施
网站可靠性工程团队与公司内的其他团队以及SRE原则和实践的各种形式互动。这是常见SRE团队实施的高级概述:[18]
厨房水槽,又名“一切SRE”
涵盖的服务或工作流程的范围通常是无限的。
基础设施
专注于幕后系统的可靠性,这些系统有助于使其他团队的工作更加高效。这些通常与“平台”团队或“平台运营”团队相混淆。基础架构SRE团队可能会与一个或多个平台工程团队配对,但它们的不同之处在于基础架构SRE团队专注于上述原则和实践列表中所述的大部分(如果不是全部)的工作。平台团队倾向于专注于构建平台,而可靠性是可取的,但这并不是他们的唯一优先级。
工具
专注于测量,维护和提高系统可靠性的工具。例如,Nagios Core。
产品或应用
SRE团队用于产品和/或应用程序。一些大型公司倾向于为其中的几个配备。
嵌入
通常是在软件工程团队中配备人员的SRE独奏从业人员或配对,以应用上述大多数原则和实践。
咨询
咨询如何实施SRE原则和实践。这些通常是经验丰富的SRE,他们在上述一个或几个实现的团队中工作。外部面对咨询SRE团队的SRE通常被称为“客户可靠性工程师”。他们很少(如果有的话)更改客户的配置或代码。
采用SRE的大型公司倾向于结合上述实施,包括相同实施的多个团队,例如多个产品/应用程序SRE团队满足多种产品的特定需求和一个基础架构SRE团队,以与平台工程组配对,以满足两种产品/应用程序的共同平台的可靠性目标。
行业
这USENIX自2014年以来,组织举行了一年一度的SRECON会议,竞选该行业的现场可靠性工程师,并举办具有相似主题的区域会议。[19]
也可以看看
参考
- ^一个b“评估您的团队在SRE频谱上的位置”.Google云博客。检索2021-06-26.
- ^一个bBeyer,Betsy;琼斯,克里斯;珍妮弗·佩菲夫;墨菲(Niall)编辑。(2016)。网站可靠性工程:Google如何运行生产系统。加利福尼亚州塞巴斯托波尔:O'Reilly Media.ISBN 978-1-4919-5118-7.OCLC 945577030.
- ^一个bVargo,塞思;方·琼斯(Fong-Jones),利兹(Liz)(2018年3月1日)。DevOps和SRE有什么区别?(SRE类实施DevOps)(视频)。谷歌.
- ^一个b“什么是SRE? - SRE解释 - AWS”.Amazon Web Services,Inc。检索2022-11-05.
- ^希尔,帕特里克。“爱Devops?等到你见到SRE”.阿特拉斯利亚人。检索6月17日,2021.
- ^“什么是SRE?”.红色的帽子。检索6月17日,2021.
- ^Treynor,Ben(2014)。“钥匙到SRE”.USENIXSRECON14。检索6月17日,2021.
- ^一个bFischer,唐纳德(2016年3月2日)。“网站可靠性工程师是下一个数据科学家吗?”.TechCrunch。检索6月17日,2021.
- ^一个bc戈塞特,斯蒂芬(2020年6月1日)。“什么是网站可靠性工程师?SRE做什么?”.内置。检索6月17日,2021.
- ^“站点可靠性工程”.IBM云教育.IBM。 2020年11月12日。检索6月21日,2021.
- ^“ SRE -Wikitech”。wikitech.wikimedia.org。检索2021-10-17.
- ^Oehrlich,Eveline;Groll,Jayne;Jean-Pierre(2021)的Garbani。UPSKILLING 2021 Enterprise DevOps SkillsReport(PDF)(报告)。 Devops Institute。检索6月17日,2021.
- ^Oehrlich,Eveline(2021年5月4日)。“成为站点可靠性工程师需要什么”.Techbeacon.微聚焦。检索6月17日,2021.
- ^Treynor,本。“在谈话中”(面试)。尼尔·墨菲(Niall Murphy)采访。Google网站可靠性工程。
- ^一个b琼斯,克里斯;安德伍德,托德;Nukala,Shylaja(2015年6月)。“雇用网站可靠性工程师”(PDF).;登录:。卷。 40,不。 3.第35–39页。检索6月17日,2021.
- ^“ 7 SRE原则(以及如何将其付诸实践)”.www.blameless.com。检索2021-06-26.
- ^“了解可观察性|蜂窝”.docs.honeycomb.io。检索2021-06-26.
- ^“ Google的SRE:如何构建您的SRE团队”.Google云博客。检索2021-06-26.
- ^“ Usenix Srecon”.USENIX。 2021。检索6月17日,2021.
进一步阅读
- Limoncelli,汤姆;Chalup,Strata r。霍根(Christina J.)(2014年9月)。云系统管理的实践:Web服务的DevOps和SRE实践。卷。 2.新泽西州上萨德尔河:Addison-Wesley.ISBN 978-0133478549.OCLC 891786231.
- Beyer,Betsy;琼斯,克里斯;珍妮弗·佩菲夫;墨菲,尼尔·理查德(Niall Richard)编辑。(2016)。网站可靠性工程:Google如何运行生产系统.奥莱利.ISBN 978-1491929124.
- Blank-Edelman,David N.,编辑。 (2018)。寻求SRE:关于大规模运行生产系统的对话(1 ed。)。加利福尼亚州塞巴斯托波尔:奥莱利。ISBN 978-1491978863.OCLC 1052565720.
- Beyer,Betsy;墨菲,尼尔;肯特的卡瓦哈拉;Rensin,David;索恩,斯蒂芬(2018)。网站可靠性工作簿:实施SRE的实用方法。奥莱利。ISBN 978-1492029502.
- Welch,Nat(2018)。现实世界中的SRE:响应系统中断和最大化正常运行时间的生存指南.packt.ISBN 978-1788628884.
- 阿德金斯,希瑟;Beyer,Betsy;保罗,布兰金斯;Lewandowski,Piotr;奥普里亚,安娜;亚当·斯图布尔菲尔德(Stubblefield)(2020)。构建安全可靠的系统:设计,实施和维护系统的最佳实践。奥莱利。ISBN 978-1-4920-8312-2.OCLC 1129470292.
- Rosenthal,Jones,Casey,Nora(2020)。混乱工程:实践中的系统弹性。奥莱利。ISBN 978-1492043867.
外部链接
- 很棒的网站可靠性工程资源清单
- 他们如何sre资源清单
- SRE周刊每周致力于SRE的新闻通讯
- 在Google的SRE登陆页面以了解有关Google中有关SRE的更多信息
- Komodor K8S可靠性与Kubernetes合作的SRE的资源学习中心