Résumé du livre
Site Reliability Engineering
Comment Google fait tourner ses systèmes en production
Le livre fondateur de Google sur le SRE : SLI/SLO et error budgets, élimination du toil, surveillance et quatre signaux d'or, astreinte, gestion d'incidents et post-mortems sans blâme — l'ingénierie qui fait tenir des systèmes à l'échelle planétaire.
Commencer 16 chapitres · ~312 min de lecture
Sommaire
- 01 Introduction au SRE et l'environnement de production Google Ce qu'est le Site Reliability Engineering, pourquoi il dépasse le modèle sysadmin, ses principes — et l'infrastructure de production de Google (Borg, Borgmon, stockage, réseau). 20 min
- 02 Accepter le risque : error budgets et SLO Pourquoi viser 100 % de fiabilité est une erreur, et comment SLI, SLO et budgets d'erreur alignent vélocité de livraison et fiabilité. 15 min
- 03 Éliminer le toil Définir le toil — ce travail manuel, répétitif et sans valeur durable — et pourquoi le plafonner à 50 % protège l'ingénierie et les ingénieurs. 13 min
- 04 Surveiller les systèmes distribués Les quatre signaux d'or, alerter sur les symptômes plutôt que les causes, et garder une surveillance simple et actionnable. 19 min
- 05 Automatisation, release engineering et simplicité Automatiser pour fiabiliser et passer à l'échelle, industrialiser les releases (builds hermétiques, déploiement continu), et faire de la simplicité un prérequis de la fiabilité. 18 min
- 06 Alerting et astreinte Construire l'alerting à partir des séries temporelles (Borgmon), et organiser une astreinte saine et soutenable. 21 min
- 07 Dépannage, réponse d'urgence et gestion d'incident Une méthode systématique de dépannage, des leçons de vraies urgences Google, et un cadre clair de gestion d'incident. 18 min
- 08 Culture du post-mortem et suivi des pannes Apprendre de l'échec par des post-mortems sans blâme, et agréger les pannes pour en dégager des tendances. 18 min
- 09 Tester la fiabilité et l'ingénierie logicielle en SRE Les niveaux de test au service de la fiabilité, jusqu'aux tests en production — et le SRE comme bâtisseur de logiciel (Auxon). 22 min
- 10 Répartition de charge et gestion de la surcharge Répartir le trafic au frontend et dans le datacenter, et survivre à la surcharge par le throttling, la criticité et le délestage. 22 min
- 11 Défaillances en cascade et état distribué critique Empêcher et endiguer les défaillances en cascade, et gérer l'état critique partagé par le consensus distribué. 21 min
- 12 Tâches planifiées, pipelines et intégrité des données Fiabiliser le cron distribué, concevoir des pipelines de données robustes, et garantir l'intégrité des données par la défense en profondeur. 26 min
- 13 Lancements de produits fiables à grande échelle L'équipe de coordination des lancements de Google, sa checklist, et les techniques pour lancer sans casser. 20 min
- 14 Monter en compétence, interruptions et surcharge opérationnelle Former les SRE jusqu'à l'astreinte, maîtriser les interruptions, et sortir une équipe de la surcharge opérationnelle. 22 min
- 15 Communication, collaboration et modèle d'engagement SRE Comment les équipes SRE communiquent et collaborent, et le modèle d'engagement (PRR) qui les lie aux équipes produit. 22 min
- 16 Leçons d'autres industries et conclusion Ce que le SRE partage avec les industries à haute fiabilité, et la conclusion de Benjamin Lutch créditant les principes posés par Ben Treynor Sloss. 15 min