大型网站运维:从系统管理到SRE
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

本书主要面向有一定传统运维工作经验的工程师和对运维工作有兴趣的读者,其通过对理念实践、团队合作、变更管理、事故处理等多个运维工作领域的分析和发掘,分享传统运维团队转型SRE团队的经验和实战感悟。

在2019年的某次运维会议上,我有幸和出版社编辑接触,并获邀对SRE方向进行撰稿。作为一个长期工作在一线的运维工程师,我读过《SRE:Google运维解密》这本书,也有相关的实践经验,但是从未想到会写一本关于SRE的书。一方面是因为感觉《SRE:Google运维解密》珠玉在前;另一方面是因为虽然我写过大量的技术文章,但是对写书这件事完全没有经验。出版社编辑对国内运维方向书籍的情况进行了分析,并且不断给予我鼓励,最终让我决定开始写这本书。

本书在很大意义上算是我对 SRE 在网易实践落地的想法总结和经验分享,希望书里的内容能给予读者一定的启发。

主要章节导读

第1章 主要讲述 SRE、DevOps 的理念和差异,让读者对当前运维两大演化分支有初步的认识。同时对运维团队转型SRE团队的背景进行了说明和分析,让读者对SRE团队的工作有一定的认知。

第2章 介绍SRE团队和其他技术团队的合作方式,包括自身角色定位和相关的实践技巧。

第3章 讲述常见的监控建设,分析监控的设计要求、技术要领。通过讲述监控背后的技术原理和架构,让读者对监控的设计思路和建设理念有初步的认知。

第4章 介绍 SRE 团队在变更管理上的实践经验,通过探讨变更背后的原因、目的等深层次因素,讲述 DevOps 和 SRE 在变更理念上的差异和实际落地经验。

第5章 对运维日常中的异常情况处理进行深入探讨和分析,并且结合一定的案例介绍事故处理流程和机制,让读者对线上异常处理有清楚的认知。

第6章 重点讲述线上服务稳定性治理,通过介绍SLI/SLO/SLA及相关的治理技巧,让读者对如何改进服务稳定性有初步的了解。

第7章 线上事故是不可避免的,无论是传统运维团队还是SRE团队都有处理事故的需求。本章通过讲述事故处理背后的环节和实践经验,让读者对事故复盘和改进等环节的重要性有清楚的认知。

第8章 介绍容量管理的目的和方法,通过分析与容量相关的概念及其重要性,有针对性地给出相关的策略方法,同时分享了一些与容量相关的建设经验。

第9章 讲述传统运维团队转型SRE团队后面临的用户体验问题,通过对内部用户和外部用户的体验问题进行分析,分享在实际落地过程中的经验和策略。

第10章 介绍在类似电商大促等业务重要活动中,SRE 团队承担的角色和跟进事项等。通过对业务重要活动的环节分析解码,分享相关的经验和技巧。

第11章 相比其他书籍中的运维技术介绍,本章会深入网络,介绍内核调优背后的原理、分享运维工具的特性,让了解Linux基本命令的读者可以深入理解SRE团队在日常工作中需要了解的技术原理。

第12章 通过介绍各种中间件背后的技术特性,让读者对负载均衡、缓存、数据库等技术有进一步的认识,并且对相关组件的选型方法有一定的掌握。

第13章 介绍云计算和容器的原理,以及相关的演化情况。让读者对云计算、容器、云原生有大致的理解,在遇到相关场景时能理解其背后的技术原理。

致谢

写书不只是文字输出,更是对自身经验和想法的梳理。因为这是第一次系统地梳理输出自己的想法和观点,对能否成稿我有很大的担忧。感谢网易杭州研究院运维专业委员会对本书编写思路给出的建议,感谢团队的支持,感谢本书另外两位作者对“监控建设”章节和“容量管理”章节的精彩编写。

感谢编辑在整个写书过程中给予的编撰指导和进度敦促,让本书最终能按时呈现给读者。写书非常耗时,编写过程占用了我大量的业余时间,因此我特别感谢家人的支持,尤其是我女儿鱼儿宝贝的支持和理解。

作者