logo
分类于: 计算机基础 互联网 设计

简介

SRE生存指南: 系统中断响应与正常运行时间最大化

SRE生存指南: 系统中断响应与正常运行时间最大化 0.0分

资源最后更新于 2020-03-29 04:31:32

作者:〔美〕纳特·韦尔奇(Nat Welch)

译者:冯文辉

出版社:出版社电子工业出版社

出版日期:2019-10

ISBN:9787121371769

文件格式: pdf

标签: 计算机 软件开发 程序设计 IT 限时特价 运维 系统管理

简介· · · · · ·

站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。纳特·韦尔奇(Nat Welch),是一名美国的软件开发人员。自2005年以来,他一直做着网站构建及运维的工作。他热爱网站的基础设施建设,因为这可以支持其他人的创造性努力。2012年,Nat成为谷歌的SRE(Site Reliability Engineering,站点可靠性工程)工程师,并爱上了这个职业。从那时起,他在各种规模的公司工作过,并一直致力于提高网站的可靠性,以帮助开发人员构建可靠的系统。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 内容简介
  2. 推荐序1
  3. 推荐序2
  4. 推荐序3
  5. 前言
  6. 1 简介
  7. SRE简史
  8. SRE是什么
  9. 关于这本书
  10. 以SRE作为新项目的框架
  11. 小结
  12. 2 监控
  13. 为什么要监控
  14. 检测应用程序
  15. 收集和保存监控数据
  16. 展示监控信息
  17. 管理和维护监控数据
  18. 沟通
  19. 小结
  20. 参考资料
  21. 3 事故响应
  22. 什么是事故
  23. 什么是事故响应
  24. 警报
  25. 随时待命
  26. 沟通
  27. 恢复系统
  28. 警报解除
  29. 小结
  30. 4 事后回顾
  31. 什么是事后回顾
  32. 为什么写事后回顾报告
  33. 何时写事后回顾报告
  34. 开展事故分析
  35. 如何写事后回顾报告
  36. 停止事后指责
  37. 举行事后回顾会议
  38. 分析以往的事后回顾报告
  39. 小结
  40. 参考资料
  41. 5 测试和发布
  42. 测试
  43. 发布
  44. 自动化
  45. 小结
  46. 6 容量规划
  47. 企业财务简介
  48. 为什么需要规划
  49. 定义一个规划
  50. 架构——性能变化的根源
  51. 技术作为利润中心和采购
  52. 小结
  53. 7 构建工具
  54. 定义项目
  55. 项目计划
  56. 构建项目
  57. 文档与维护项目
  58. 小结
  59. 8 用户体验
  60. 设计和用户体验简介
  61. 用户测试
  62. 开发者体验
  63. 工具经验
  64. 绩效预算
  65. 安全性
  66. ACM道德准则
  67. 小结
  68. 参考资料
  69. 9 网络基础
  70. 互联网
  71. 发送一个HTTP请求
  72. 网络监控工具
  73. 小结
  74. 参考资料
  75. 10 Linux 和云基础
  76. Linux基础
  77. 云基础
  78. 伸缩单元
  79. 架构面试示例
  80. 小结
  81. 参考资料