Résumé du livre

Site Reliability Engineering

Comment Google fait tourner ses systèmes en production

Le livre fondateur de Google sur le SRE : SLI/SLO et error budgets, élimination du toil, surveillance et quatre signaux d'or, astreinte, gestion d'incidents et post-mortems sans blâme — l'ingénierie qui fait tenir des systèmes à l'échelle planétaire.

Commencer 16 chapitres · ~312 min de lecture

Sommaire

  1. 01 Introduction au SRE et l'environnement de production Google Ce qu'est le Site Reliability Engineering, pourquoi il dépasse le modèle sysadmin, ses principes — et l'infrastructure de production de Google (Borg, Borgmon, stockage, réseau). 20 min
  2. 02 Accepter le risque : error budgets et SLO Pourquoi viser 100 % de fiabilité est une erreur, et comment SLI, SLO et budgets d'erreur alignent vélocité de livraison et fiabilité. 15 min
  3. 03 Éliminer le toil Définir le toil — ce travail manuel, répétitif et sans valeur durable — et pourquoi le plafonner à 50 % protège l'ingénierie et les ingénieurs. 13 min
  4. 04 Surveiller les systèmes distribués Les quatre signaux d'or, alerter sur les symptômes plutôt que les causes, et garder une surveillance simple et actionnable. 19 min
  5. 05 Automatisation, release engineering et simplicité Automatiser pour fiabiliser et passer à l'échelle, industrialiser les releases (builds hermétiques, déploiement continu), et faire de la simplicité un prérequis de la fiabilité. 18 min
  6. 06 Alerting et astreinte Construire l'alerting à partir des séries temporelles (Borgmon), et organiser une astreinte saine et soutenable. 21 min
  7. 07 Dépannage, réponse d'urgence et gestion d'incident Une méthode systématique de dépannage, des leçons de vraies urgences Google, et un cadre clair de gestion d'incident. 18 min
  8. 08 Culture du post-mortem et suivi des pannes Apprendre de l'échec par des post-mortems sans blâme, et agréger les pannes pour en dégager des tendances. 18 min
  9. 09 Tester la fiabilité et l'ingénierie logicielle en SRE Les niveaux de test au service de la fiabilité, jusqu'aux tests en production — et le SRE comme bâtisseur de logiciel (Auxon). 22 min
  10. 10 Répartition de charge et gestion de la surcharge Répartir le trafic au frontend et dans le datacenter, et survivre à la surcharge par le throttling, la criticité et le délestage. 22 min
  11. 11 Défaillances en cascade et état distribué critique Empêcher et endiguer les défaillances en cascade, et gérer l'état critique partagé par le consensus distribué. 21 min
  12. 12 Tâches planifiées, pipelines et intégrité des données Fiabiliser le cron distribué, concevoir des pipelines de données robustes, et garantir l'intégrité des données par la défense en profondeur. 26 min
  13. 13 Lancements de produits fiables à grande échelle L'équipe de coordination des lancements de Google, sa checklist, et les techniques pour lancer sans casser. 20 min
  14. 14 Monter en compétence, interruptions et surcharge opérationnelle Former les SRE jusqu'à l'astreinte, maîtriser les interruptions, et sortir une équipe de la surcharge opérationnelle. 22 min
  15. 15 Communication, collaboration et modèle d'engagement SRE Comment les équipes SRE communiquent et collaborent, et le modèle d'engagement (PRR) qui les lie aux équipes produit. 22 min
  16. 16 Leçons d'autres industries et conclusion Ce que le SRE partage avec les industries à haute fiabilité, et la conclusion de Benjamin Lutch créditant les principes posés par Ben Treynor Sloss. 15 min