Résumé du livre

Site Reliability Engineering

Comment Google fait tourner ses systèmes en production

Beyer, Jones, Petoff & Murphy · 2016

Le livre fondateur de Google sur le SRE : SLI/SLO et error budgets, élimination du toil, surveillance et quatre signaux d'or, astreinte, gestion d'incidents et post-mortems sans blâme — l'ingénierie qui fait tenir des systèmes à l'échelle planétaire.

Commencer 16 chapitres · ~312 min de lecture

Sommaire

01 Introduction au SRE et l'environnement de production Google Ce qu'est le Site Reliability Engineering, pourquoi il dépasse le modèle sysadmin, ses principes — et l'infrastructure de production de Google (Borg, Borgmon, stockage, réseau). 20 min
02 Accepter le risque : error budgets et SLO Pourquoi viser 100 % de fiabilité est une erreur, et comment SLI, SLO et budgets d'erreur alignent vélocité de livraison et fiabilité. 15 min
03 Éliminer le toil Définir le toil — ce travail manuel, répétitif et sans valeur durable — et pourquoi le plafonner à 50 % protège l'ingénierie et les ingénieurs. 13 min
04 Surveiller les systèmes distribués Les quatre signaux d'or, alerter sur les symptômes plutôt que les causes, et garder une surveillance simple et actionnable. 19 min
05 Automatisation, release engineering et simplicité Automatiser pour fiabiliser et passer à l'échelle, industrialiser les releases (builds hermétiques, déploiement continu), et faire de la simplicité un prérequis de la fiabilité. 18 min
06 Alerting et astreinte Construire l'alerting à partir des séries temporelles (Borgmon), et organiser une astreinte saine et soutenable. 21 min
07 Dépannage, réponse d'urgence et gestion d'incident Une méthode systématique de dépannage, des leçons de vraies urgences Google, et un cadre clair de gestion d'incident. 18 min
08 Culture du post-mortem et suivi des pannes Apprendre de l'échec par des post-mortems sans blâme, et agréger les pannes pour en dégager des tendances. 18 min
09 Tester la fiabilité et l'ingénierie logicielle en SRE Les niveaux de test au service de la fiabilité, jusqu'aux tests en production — et le SRE comme bâtisseur de logiciel (Auxon). 22 min
10 Répartition de charge et gestion de la surcharge Répartir le trafic au frontend et dans le datacenter, et survivre à la surcharge par le throttling, la criticité et le délestage. 22 min
11 Défaillances en cascade et état distribué critique Empêcher et endiguer les défaillances en cascade, et gérer l'état critique partagé par le consensus distribué. 21 min
12 Tâches planifiées, pipelines et intégrité des données Fiabiliser le cron distribué, concevoir des pipelines de données robustes, et garantir l'intégrité des données par la défense en profondeur. 26 min
13 Lancements de produits fiables à grande échelle L'équipe de coordination des lancements de Google, sa checklist, et les techniques pour lancer sans casser. 20 min
14 Monter en compétence, interruptions et surcharge opérationnelle Former les SRE jusqu'à l'astreinte, maîtriser les interruptions, et sortir une équipe de la surcharge opérationnelle. 22 min
15 Communication, collaboration et modèle d'engagement SRE Comment les équipes SRE communiquent et collaborent, et le modèle d'engagement (PRR) qui les lie aux équipes produit. 22 min
16 Leçons d'autres industries et conclusion Ce que le SRE partage avec les industries à haute fiabilité, et la conclusion de Benjamin Lutch créditant les principes posés par Ben Treynor Sloss. 15 min