SRE生存指南：系统中断响应与正常运行时间最大化

目　录作者简介内容简介

　　1 简介 1
　　SRE简史 2
　　SRE是什么 3
　　关于这本书 7
　　以SRE作为新项目的框架 9
　　小结 12
　　2 监控 13
　　为什么要监控 13
　　检测应用程序 16
　　度量什么 23
　　SLI、SLO和错误预算简介 26
　　错误预算 27
　　收集和保存监控数据 29
　　轮询应用程序 29
　　推送应用程序 32
　　展示监控信息 35
　　任意查询 35
　　图表 36
　　仪表板 37
　　聊天机器人 38
　　管理和维护监控数据 38
　　沟通 39
　　他们知道有监控吗 39
　　小结 40
　　参考资料 40
　　3 事故响应 42
　　什么是事故 43
　　什么是事故响应 45
　　警报 47
　　什么时候发起警报 48
　　怎么发出警报 49
　　向谁发出警报 54
　　随时待命 55
　　沟通 57
　　事故指挥系统 59
　　在哪里沟通 61
　　恢复系统 61
　　警报解除 63
　　小结 64
　　4 事后回顾 65
　　什么是事后回顾 65
　　为什么写事后回顾报告 66
　　何时写事后回顾报告 68
　　开展事故分析 69
　　如何写事后回顾报告 71
　　总结 71
　　影响 72
　　时间 73
　　根本原因 74
　　行动项 75
　　附录 77
　　停止事后指责 77
　　举行事后回顾会议 79
　　分析以往的事后回顾报告 80
　　MTTR与MTBF 81
　　警报疲劳 81
　　讨论过去的服务中断 81
　　小结 82
　　参考资料 82
　　5 测试和发布 83
　　测试 84
　　测试内容 87
　　发布 100
　　何时发布 101
　　回滚 104
　　自动化 104
　　持续 105
　　小结 106
　　6 容量规划 107
　　企业财务简介 108
　　为什么需要规划 110
　　风险管理与期望管理 111
　　定义一个规划 112
　　当前的容量是多少 113
　　何时达到容量极限 115
　　应该如何更改容量 119
　　执行规划 125
　　架构——性能变化的根源 126
　　技术作为利润中心和采购 128
　　小结 128
　　7 构建工具 129
　　寻找项目 131
　　定义项目 133
　　RDD 133
　　设计文档 136
　　项目计划 138
　　例子 139
　　回顾会与站会 141
　　工作分配 142
　　构建项目 143
　　关于编写代码的建议 143
　　关注点分离 144
　　长期工作 145
　　笔记本 148
　　文档与维护项目 149
　　小结 150
　　8 用户体验 151
　　设计和用户体验简介 155
　　现实世界的交互设计 157
　　用户测试 160
　　挑选一种体验 161
　　设计测试 162
　　寻找要测试的人 162
　　开发者体验 163
　　工具经验 164
　　绩效预算 164
　　安全性 166
　　身份认证 167
　　授权 168
　　风险概况 168
　　网络钓鱼 169
　　ACM道德准则 170
　　小结 171
　　参考资料 172
　　9 网络基础 173
　　互联网 173
　　发送一个HTTP请求 175
　　DNS 175
　　以太网和TCP/IP 179
　　HTTP 186
　　curl与wget 189
　　网络监控工具 194
　　netstat 194
　　nc 195
　　tcpdump 196
　　小结 197
　　参考资料 197
　　10 Linux和云基础 198
　　Linux基础 198
　　一切皆是文件 199
　　进程是什么 206
　　syscalls 207
　　构建自己的工具 213
　　云基础 214
　　虚拟机 215
　　容器 216
　　负载均衡 218
　　自动伸缩 219
　　存储 219
　　队列与发布/订阅 220
　　伸缩单元 221
　　架构面试示例 222
　　小结 226
　　参考资料 226

目　录作者简介内容简介

　　Nat Welch是一名美国的软件开发人员。自2005年以来，他一直做着网站构建及运维的工作。他热爱网站的基础设施建设，因为这可以支持其他人的创造性努力。2012年，Nat成为谷歌的SRE（Site Reliability Engineering，站点可靠性工程）工程师，并爱上了这个职业。从那时起，他在各种规模的公司工作过，并一直致力于提高网站的可靠性，以帮助开发人员构建可靠的系统。
　　关于审查者
　　Pavlos Ratis是HolidayCheck的一名SRE工程师，负责自动化软件和基础设施的可靠性。随着时间的推移，他参与了大量的项目，并参与过从编写软件到自动化，管理基于云的多服务器基础设施，到开发Web应用程序等很多环节。

目　录作者简介内容简介

　　站点可靠性工程（Site Reliability Engineering，简称SRE）是一个令人兴奋的新兴领域，它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型，深入浅出地介绍了关于SRE的方方面面，涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计，以及贯穿其中的沟通技巧。
　　本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料；软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。

1人想要

公众号、微信群

收入我的书架　×

SRE生存指南：系统中断响应与正常运行时间最大化

1人想要

公众号、微信群

收入我的书架 ×

收入我的书架　×