L'erreur humaine ? Non, une mauvaise conception — The Design of Everyday Things

La plupart des accidents industriels sont imputés à l'« erreur humaine » : les estimations vont de 75 à 95 %. Comment tant de gens peuvent-ils être à ce point incompétents ? La réponse de Don Norman tient en une phrase : ils ne le sont pas. Si la part des accidents attribués à la défaillance humaine était de 1 à 5 %, on pourrait croire les personnes en cause ; mais lorsqu'elle frôle la quasi-totalité, c'est qu'un autre facteur est à l'œuvre, et ce facteur, presque toujours, est la conception. Quand un pont s'effondre, on en cherche les causes profondes et l'on réécrit les règles de l'art ; mais quand l'accident semble venir des gens, on les blâme, puis on continue exactement comme avant. Ce chapitre, l'un des plus importants du livre pour quiconque conçoit des systèmes, retourne entièrement le problème : la quasi-totalité de ce qu'on nomme « erreur humaine » est en réalité un défaut de conception qui n'a pas tenu compte de la manière dont les humains pensent réellement.

Du blâme à la cause profonde

Les limites physiques des humains sont bien comprises des concepteurs ; leurs limites mentales le sont beaucoup moins. Norman réclame qu'on traite tous les échecs de la même façon : remonter à la cause fondamentale et reconcevoir le système pour qu'elle ne puisse plus nuire. Or nous concevons des équipements qui exigent une vigilance sans faille pendant des heures, la mémorisation de procédures archaïques utilisées une fois dans une vie, ou qui plongent les opérateurs dans l'ennui jusqu'à ce qu'ils doivent soudain réagir vite et juste. Puis nous nous étonnons des défaillances.

Le coupable le plus tenace, c'est l'attitude envers l'erreur. Quand une erreur cause une perte, une blessure ou une mort, on convoque une commission, on désigne des coupables, on les sanctionne — ou, version douce, on les renvoie en formation. Blâmer et punir ; blâmer et former. C'est satisfaisant — « on a coincé le responsable » — mais cela ne corrige rien : la même erreur se reproduira. La bonne démarche est inverse : déterminer pourquoi, puis reconcevoir le produit ou la procédure pour que l'erreur ne survienne plus, ou qu'elle ait un impact minimal.

L'analyse des causes profondes (root cause analysis) consiste à remonter à la cause sous-jacente d'un incident, non à sa cause immédiate. Elle souffre de deux travers. D'abord, la plupart des accidents n'ont pas de cause unique. Ensuite — et c'est le piège — l'enquête s'arrête dès qu'une erreur humaine est trouvée. Quand une machine tombe en panne, on ne s'arrête pas à la pièce cassée : on demande pourquoi elle a cassé. On devrait faire de même avec l'humain : une fois l'erreur repérée, le travail ne fait que commencer. C'est l'esprit des cinq pourquoi (Five Whys), procédure de Toyota : même après avoir trouvé une raison, ne pas s'arrêter, mais demander pourquoi celle-ci. Le crash d'un F-22 de l'US Air Force illustre l'enjeu — le rapport conclut à l'erreur du pilote, qui « n'avait pas amorcé à temps une sortie de piqué » ; l'inspecteur général riposte que c'est parce que le pilote était probablement inconscient (privation d'oxygène, hypoxie) :

Air Force        : C'était une erreur du pilote — il n'a pas corrigé.
Inspecteur Gén.  : Justement, parce qu'il était sans doute inconscient.
Air Force        : Donc vous êtes d'accord : le pilote n'a pas corrigé.

Attention

Norman raconte avoir analysé des accidents où des ouvriers très qualifiés d'une compagnie d'électricité avaient été électrocutés. Toutes les commissions conclurent à la faute des ouvriers — y compris les survivants eux-mêmes. Personne n'alla chercher pourquoi. Ses recommandations furent reçues poliment ; on le remercia même. Des années plus tard, un ami lui confia : « Aucun changement. Et on blesse toujours des gens. » Tant que l'erreur est vue comme une faiblesse personnelle plutôt que comme le signe d'une mauvaise conception, elle est ineffaçable.

Le réflexe de blâme est si naturel qu'il est partagé par ceux-là mêmes qui se sont trompés : « Je savais pourtant. » Mais cela n'empêche en rien la récidive. Quand beaucoup de gens commettent la même erreur, c'est qu'il faut chercher une autre cause. Si le système vous laisse commettre l'erreur, il est mal conçu ; s'il vous y induit, il est vraiment très mal conçu. Quand Norman allume le mauvais brûleur de sa cuisinière, ce n'est pas par ignorance : c'est à cause d'un mauvais mappage (mapping) entre commandes et foyers. Lui enseigner la relation n'empêchera pas l'erreur ; reconcevoir la cuisinière, oui.

Pourquoi nous nous trompons

Les designs se focalisent sur les exigences des machines, pas sur celles des personnes. Les machines réclament des commandes précises, des saisies parfaites — or les humains sont mauvais en grande précision, et se trompent fréquemment en tapant des séquences de chiffres. Nous sommes au contraire des êtres créatifs, exploratoires, doués pour la nouveauté ; les routines minutieuses contrarient ces qualités, qui se muent en défauts dès qu'on nous force à servir les machines. S'ajoute le stress temporel : sous la pression du temps, du mauvais temps ou de la rentabilité, nous repoussons les limites — la plupart du temps ça passe, et on nous félicite ; mais le jour où ça casse, ce même comportement est puni.

Norman distingue l'erreur des violations délibérées (deliberate violations), quand on enfreint sciemment règles et procédures. Avez-vous déjà dépassé la vitesse autorisée, calé une porte coupe-feu, travaillé en étant malade ? Souvent, les règles sont écrites pour la conformité juridique plus que pour le travail réel : si on les suivait toutes, rien ne se ferait. Pire, quand un employé viole la règle pour finir le travail et réussit, on le récompense, encourageant à son insu le non-respect. Les violations sont des erreurs organisationnelles, réelles mais hors du champ de la conception des objets du quotidien ; l'erreur examinée ici est, par définition, involontaire.

Deux grandes familles : ratés et fautes

Avec le psychologue britannique James Reason, Norman a classé les erreurs en deux catégories : les ratés (slips) et les fautes (mistakes). Un raté survient quand la personne vise le bon but mais accomplit une autre action que prévue : but correct, exécution défaillante. Une faute survient quand le but ou le plan est mauvais : même exécutées parfaitement, les actions appartiennent à un plan erroné. La distinction est cruciale parce qu'elle commande des remèdes différents.

Critère	Ratés (slips)	Fautes (mistakes)
Ce qui cloche	Le but est bon, l'action dérape	Le but ou le plan est mauvais
Niveau cognitif	Niveaux bas : exécution, perception	Niveaux hauts : objectif, plan, évaluation
Mode de pensée	Subconscient, automatique	Conscient, délibéré
Qui en fait le plus	Les experts (action automatisée)	Les novices (modèle conceptuel pauvre)
Sous-types	Action ; trou de mémoire	Basée sur les règles ; sur les connaissances ; trou de mémoire
Détection	Plutôt facile (écart visible)	Difficile (les actions confirment le plan)

Fait paradoxal : les ratés frappent davantage les gens compétents que les débutants, car ils résultent d'un défaut d'attention — l'expert agit en pilote automatique, sous contrôle subconscient. Le novice, lui, dépourvu de modèle conceptuel solide, commet surtout des fautes. Dans le cycle de l'action en sept étapes, les ratés naissent dans les étapes basses (exécution, perception), les fautes dans les étapes hautes (objectif, plan, comparaison) ; les trous de mémoire (memory lapses) frappent les transitions — en haut ils donnent des fautes, en bas des ratés.

Les quatre ratés à connaître

Le raté de capture (capture slip) : une séquence plus fréquente ou récente « capture » celle voulue, dès qu'elles partagent un début identique. Norman, comptant des photocopies, s'entend dire : « 1, 2, 3… 9, 10, valet, dame, roi » — il venait de jouer aux cartes. Leçon : éviter les procédures aux étapes initiales identiques qui divergent ensuite ; les séquences doivent différer dès le départ.
Le raté par similarité de description (description-similarity slip) : on agit correctement, mais sur un objet ressemblant à la cible, parce que sa description interne était trop vague. Un coureur jette son maillot non dans le panier à linge mais dans la cuvette des toilettes — deux « contenants ». D'où la règle des cockpits : les commandes sont codées par la forme (la manette des gaz diffère de celle des volets et de celle du train d'atterrissage).
Le raté par trou de mémoire (memory-lapse slip) : on oublie une étape — repartir en laissant l'original dans le photocopieur, oublier sa carte au distributeur, pire, oublier un enfant. La cause immédiate est presque toujours l'interruption. Le meilleur remède est la fonction de forçage (forcing function) : le distributeur exige qu'on retire la carte avant de délivrer l'argent, s'appuyant sur le fait qu'on oublie rarement le but — l'argent.

Le quatrième mérite une mention spéciale : l'erreur de mode (mode error). Un appareil possède plusieurs états — les modes — où les mêmes commandes ont des significations différentes. Dès qu'un dispositif offre plus d'actions possibles que de commandes, les erreurs de mode sont inévitables. Il est tentant d'économiser place et argent en faisant servir une commande à plusieurs usages ; la simplicité apparente masque alors une complexité réelle, car l'opérateur doit garder en tête le mode actif — y compris après une interruption.

Piège courant

Un accident d'Airbus illustre tragiquement l'erreur de mode. Le pilote automatique avait deux modes : l'un pilotait l'angle de descente, l'autre la vitesse verticale. À l'atterrissage, l'équipage croyait régler l'angle ; il avait en fait sélectionné le mode vitesse. Le nombre « –3.3 », censé valoir un angle de –3,3° (environ –800 pieds/minute), fut interprété comme –3 300 pieds/minute — un piqué bien trop raide. L'accident fut mortel. Airbus modifia ensuite l'affichage pour que la vitesse verticale apparaisse sur quatre chiffres et l'angle sur deux. L'erreur de mode est, au fond, une erreur de conception : si les modes sont nécessaires, l'équipement doit rendre le mode actif évident.

L'anatomie des fautes

Les fautes naissent du choix d'un but ou d'un plan inadéquat, ou d'une comparaison erronée du résultat avec l'objectif. Reprenant la distinction de l'ingénieur danois Jens Rasmussen, Norman dégage trois sous-types.

Sous-type de faute	Mécanisme	Remède de conception
Basée sur les règles (rule-based)	Situation bien diagnostiquée, mais on suit la mauvaise règle ; ou la règle elle-même est défectueuse	Afficher l'état du système de façon cohérente, idéalement graphique
Basée sur les connaissances (knowledge-based)	Situation nouvelle, sans règle applicable ; problème mal diagnostiqué faute de savoir	Fournir un bon modèle conceptuel ; manuels, outils d'aide à la décision
Trou de mémoire (memory-lapse)	On oublie le but, le plan ou une évaluation, souvent après une interruption	Rendre buts, plans et état courant continuellement visibles

La faute basée sur les règles survient quand la situation est mal interprétée ou quand la règle est défectueuse. Trois exemples : l'incendie meurtrier de la discothèque Kiss au Brésil (le groupe croyait ses fusées sans danger ; les agents bloquèrent d'abord les sorties pour empêcher les départs sans paiement — une règle ignorant le cas de l'urgence) ; régler un four au maximum pour qu'il chauffe « plus vite » (faux modèle conceptuel) ; un conducteur peu familier de l'ABS qui, sentant vibrer la pédale, croit à une panne et relâche le frein, alors que la vibration signale le bon fonctionnement. Ces fautes sont difficiles à détecter : une fois la situation classée, le choix de la règle paraît évident — mais si la classification est fausse, l'erreur est presque indécelable, car de nombreux indices la confortent. En situation complexe, le problème est le trop-plein d'information, à la fois confirmante et contradictoire, à trier sous pression.

À retenir

La rétrospective est toujours plus lucide que la prospective. Quand la commission d'enquête reconstitue l'accident, elle sait ce qui s'est passé : il lui est facile de désigner l'information pertinente et de condamner les opérateurs pour avoir « manqué l'évidence ». Mais pendant l'événement, rien n'était évident : ils étaient submergés d'informations dont la plupart se révéleront sans rapport, et certaines anodines deviendront critiques. Le psychologue Baruch Fischhoff l'a démontré : connaître le dénouement le fait paraître prévisible. C'est pourquoi les meilleures analyses d'accident prennent des mois — et pourquoi il faut préférer les rapports officiels (aux États-Unis, ceux du NTSB) aux déclarations hâtives.

La faute basée sur les connaissances survient dans l'inédit, quand ni compétence ni règle ne s'appliquent : il faut raisonner et tester un plan — d'où le rôle central d'un bon modèle conceptuel (conceptual model). Le trou de mémoire engendre une faute, et non un simple raté, quand l'oubli porte sur le but ou le plan tout entier. Le remède est identique : maintenir disponibles toutes les informations utiles, et supposer que la personne sera interrompue puis devra reprendre.

L'exemple le plus illustratif de ces deux sous-types tient en un seul incident : le « Gimli Glider », ce Boeing 767 d'Air Canada qui, en 1983, se retrouva à court de carburant en plein vol et dut planer jusqu'à un atterrissage d'urgence sur une ancienne piste de course de Gimli. Deux fautes y avaient concouru. Une faute basée sur les connaissances d'abord : le poids du carburant fut calculé en livres au lieu de kilogrammes, si bien que l'avion embarqua bien moins de kérosène que nécessaire. Un trou de mémoire ensuite : un mécanicien, interrompu en plein diagnostic, ne termina pas son dépannage. Le même incident exhibe ainsi côte à côte les deux mécanismes — un mauvais modèle des unités, et un plan abandonné après une interruption — et rappelle qu'aucune compétence individuelle ne suffit à compenser un système qui n'a pas été conçu pour rendre l'état réel évident.

Détecter, signaler, expliquer

Une erreur ne nuit pas forcément si on la repère vite, mais les catégories ne se valent pas. Les ratés d'action sont relativement faciles à détecter, à condition qu'il y ait une rétroaction (feedback) : on remarque l'écart entre l'acte voulu et l'acte accompli. Les ratés par trou de mémoire sont difficiles à voir, car il n'y a rien à voir — l'action manque. Les fautes, enfin, sont les plus retorses : rien ne signale qu'un but est mauvais, et une fois le mauvais plan adopté, toutes les actions lui sont cohérentes, si bien qu'une surveillance attentive renforce à tort la confiance dans la décision.

C'est le phénomène de l'explication facile (explaining away). En famille, sur la route de Mammoth Lakes, Norman voit fleurir les panneaux pour Las Vegas : « bizarre, mais Las Vegas annonce de loin ». Deux heures plus tard, il découvre qu'il roulait depuis longtemps vers Las Vegas — quatre heures perdues. La plupart des grands accidents sont précédés de signes avant-coureurs, chacun explicable, chacun écarté car nul, isolément, ne semblait grave. Distinguer une vraie anomalie d'une fausse est l'un des problèmes les plus difficiles qui soient.

Reste à signaler l'erreur — condition de tout progrès. Les pressions sociales rendent l'aveu pénible : amende, moqueries, refus des institutions d'admettre que leur personnel se trompe. Or « le seul moyen de réduire les erreurs est d'admettre leur existence » et d'en recueillir les données. Norman cite trois pratiques exemplaires : le jidoka de Toyota (« automatisation à visage humain » : tout ouvrier peut tirer le cordon andon pour arrêter la chaîne et faire converger les experts) ; le poka-yoke de Shigeo Shingo (« détrompage » : gabarits, trous de vis asymétriques, capots sur les interrupteurs critiques — autant de fonctions de forçage) ; et le report d'incidents de l'aviation civile américaine confié à la NASA, semi-anonyme et exonérant de sanction, organisme neutre qui a gagné la confiance des pilotes là où la médecine peine encore.

Astuce

Les listes de contrôle (checklists) réduisent puissamment ratés et trous de mémoire. Le secret : les exécuter à deux, l'un lisant, l'autre agissant, le premier vérifiant. Paradoxe des groupes : ajouter des vérificateurs peut accroître le risque d'erreur — si chacun se repose sur les autres (« avec tant de gens, impossible que ça passe »), tous relâchent leur vigilance. L'aviation l'a compris depuis des décennies ; la médecine y résiste encore, y voyant une atteinte à la compétence. Pourtant errare humanum est : exiger une checklist, loin de diminuer un expert, renforce son autorité.

Pressions sociales et institutionnelles

Un facteur subtil traverse une foule d'accidents : la pression sociale. Elle paraît d'abord étrangère à la conception, mais elle pèse lourdement sur le comportement quotidien et, en milieu industriel, conduit aux mauvaises interprétations, aux fautes et aux catastrophes. Norman en fait un déterminant majeur : « pour comprendre l'erreur humaine, il est essentiel de comprendre la pression sociale ». Dans les installations commerciales, la pression pour ne pas interrompre la production est énorme — couper un système coûteux représente des pertes considérables, et les opérateurs sont incités à n'en rien faire. On maintient ainsi des centrales nucléaires en marche au-delà du raisonnable ; des avions ont décollé avant d'y être prêts, avant même d'en avoir reçu l'autorisation.

L'un de ces incidents fut à l'origine du plus grave accident de l'histoire de l'aviation. En 1977, à Tenerife, aux Canaries, un Boeing 747 de la KLM percuta au décollage un 747 de la Pan American qui circulait sur la même piste : 583 morts. L'appareil de la KLM n'avait pas reçu l'autorisation de décoller, mais la météo se dégradait et l'équipage accumulait déjà un retard considérable. La Pan Am n'aurait pas dû se trouver sur la piste, mais un profond malentendu régnait entre les pilotes et la tour ; et le brouillard était si dense que ni l'un ni l'autre équipage ne voyait l'autre avion. Pression temporelle et économique se conjuguaient aux conditions météorologiques et culturelles. Le copilote de la KLM émit de timides objections au commandant, tentant d'expliquer qu'ils n'étaient pas encore autorisés — mais il était de rang très subalterne face au capitaine, l'un des pilotes les plus respectés de la compagnie. Une tragédie née d'un mélange de pressions sociales et d'explication facile d'observations discordantes.

Attention

En 1982, un vol Air Florida décollant de l'aéroport National de Washington s'écrasa au décollage sur le pont de la 14e rue, au-dessus du Potomac : soixante-dix-huit morts, dont quatre personnes sur le pont. L'avion n'aurait pas dû partir — il y avait de la glace sur les ailes — mais il accusait déjà plus d'une heure et demie de retard ; ce facteur, parmi d'autres, « a pu prédisposer l'équipage à se hâter » (NTSB). Le copilote alerta le commandant que « quelque chose n'allait pas » à quatre reprises durant le décollage ; le commandant n'interrompit pas la manœuvre. De nouveau, des pressions sociales attelées aux forces du temps et de l'économie.

Les pressions sociales sont puissantes et omniprésentes : on prend le volant somnolent ou après avoir bu, en connaissant parfaitement le danger, mais en se persuadant d'y échapper. Or elles sont aussi difficiles à documenter, car peu d'individus et d'organisations consentent à les reconnaître ; même mises au jour pendant une enquête, elles restent souvent soustraites au regard public — à l'exception notable des accidents de transport, dont les commissions (aux États-Unis, le NTSB) tiennent des enquêtes ouvertes. Le bon design ne suffit pas à les combattre : il faut une autre formation, et récompenser la sécurité plutôt que de la subordonner aux impératifs économiques.

Astuce

Quand Norman apprenait la plongée sous-marine, son instructeur, conscient de ce piège, promit de récompenser quiconque écourterait une plongée par souci de sécurité. Les plongeurs portent des plombs pour descendre ; en eau froide, les combinaisons isolantes ajoutent de la flottabilité, ce qui en exige davantage. Or des plongeurs en difficulté se sont noyés, encore lestés, faute d'avoir largué ces plombs : coûteux, on hésite à s'en défaire ; et qui les largue puis s'en sort sain et sauf ne pourra jamais prouver que c'était nécessaire, d'où une gêne — une pression sociale auto-induite. En s'engageant à louer publiquement et à remplacer gratuitement les plombs largués, l'instructeur retournait cette pression au service de la sécurité.

Concevoir pour l'erreur

Concevoir pour le cas où tout se passe bien est facile ; la difficulté est de concevoir pour quand les choses tournent mal. Norman invite à prendre modèle sur la conversation humaine : si quelqu'un dit une chose fausse ou incompréhensible, on ne déclenche pas d'alarme, on ne « bipe » pas — on demande des précisions, on engage le dialogue. Les machines, elles, exécutent une commande dangereuse dès qu'elle a le bon format, fût-elle absurde : surdoses de médicaments, irradiations mortelles, virements démesurés. De simples contrôles de bon sens les auraient toutes évitées.

CONCEVOIR POUR L'ERREUR — programme en cinq points

1. Comprendre les causes d'erreur, et concevoir pour les minimiser.
2. Faire des contrôles de vraisemblance (« sensibility checks ») :
   l'action passe-t-elle le test du bon sens ?
3. Rendre les actions réversibles — l'« annulation » (undo) —
   ou rendre plus difficile ce qui est irréversible.
4. Faciliter la détection des erreurs, et leur correction.
5. Ne pas traiter l'action comme une faute : aider la personne
   à l'accomplir correctement. Y voir une approximation du désir.

Plusieurs leviers concrets en découlent. Ajouter des contraintes physiques pour bloquer l'erreur : dans une voiture, séparer les points de remplissage et différencier formes, tailles et couleurs des orifices empêche de verser le mauvais liquide. L'annulation (undo) est l'outil le plus puissant des systèmes électroniques, surtout à plusieurs niveaux ; il reste stupéfiant que tant de systèmes l'omettent là où elle serait possible. La confirmation, en revanche, déçoit souvent : sollicitée trop tard, alors qu'on est déjà certain de vouloir l'action, elle devient un agacement qu'on valide machinalement (« Voulez-vous supprimer ce fichier ? — Oui — En êtes-vous sûr ? — Oui ! — … Zut. »). Mieux vaut rendre saillant l'objet sur lequel porte l'action et offrir le choix « annuler / faire ». Surtout, la confirmation marche contre les ratés (où la surprise alerte) mais reste presque inopérante contre les fautes (où, attendant la boîte de dialogue, on ne la lit même pas).

Note

Les contrôles de vraisemblance (sensibility checks) sont la réponse aux erreurs les plus graves. Il est ahurissant qu'un personnel médical puisse demander par mégarde une dose de rayonnement mille fois trop forte et que l'appareil obtempère docilement. Un système intelligent connaîtrait l'ordre de grandeur normal d'une transaction et interrogerait l'opérateur dès qu'une valeur s'en écarte fortement — confondre les wons coréens et les dollars ne déclencherait plus un virement d'un million. Le bon réflexe : la machine n'exécute pas aveuglément, elle questionne ce qui sort de l'ordinaire.

Les signaux d'alerte sont rarement la solution. Dans une salle de contrôle nucléaire, un cockpit ou un bloc opératoire, des dizaines d'instruments émettent des bips similaires, sans coordination : en cas d'urgence majeure, ils sonnent tous ensemble, chacun couvrant les autres. Que font les opérateurs ? Ils débranchent les alarmes, masquent les voyants, coupent les sonneries — et c'est ensuite, quand ils oublient de les réactiver ou qu'un autre incident survient, que le drame frappe. L'interruption et le multitâche sont eux-mêmes des fabriques d'erreurs : faire deux choses à la fois prend plus de temps que la somme des deux faites séparément. D'où des dispositifs comme le « cockpit stérile » imposé pendant le décollage et l'atterrissage, où nulle conversation étrangère au pilotage n'est tolérée.

Le modèle du fromage suisse

Heureusement, la plupart des erreurs ne débouchent pas sur un accident. C'est l'image la plus célèbre de James Reason, le modèle du fromage suisse (Swiss cheese model). Imaginez plusieurs tranches d'emmental, chacune représentant une couche de défense, chacune trouée. Une erreur traverse un trou… mais elle est presque toujours bloquée par la tranche suivante. L'accident ne survient que si les trous de toutes les tranches s'alignent parfaitement. Un système bien conçu est ainsi résilient : il peut accumuler pannes et erreurs sans catastrophe, tant qu'elles ne se mettent pas pile en file.

LE MODÈLE DU FROMAGE SUISSE (d'après James Reason)

        tranche A   tranche B   tranche C   tranche D
        (défense)   (défense)   (défense)   (défense)

danger →  [  O   ] → [O     ] → [   O  ] → [    O ]   ✗ bloqué
          [O     ]   [   O  ]   [O     ]   [  O   ]
          [   O  ]   [     O]   [     O]   [O     ]

danger →  [  O   ] → [  O   ] → [  O   ] → [  O   ]   ✗ ACCIDENT
          (les trous se sont alignés : la défaillance passe)

  Réduire les accidents :
  • Ajouter des tranches  → plus de lignes de défense
  • Réduire / rétrécir les trous → moins d'occasions d'erreur
  • Alerter quand plusieurs trous s'alignent
  • Rendre les tranches DIFFÉRENTES (que les trous ne coïncident pas)

Deux leçons. D'abord, ne pas chercher la cause d'un accident : il est toujours facile de trouver un « si seulement » — « si seulement il n'avait pas plu » —, mais aucun n'est la cause ; tous devaient s'aligner. Ensuite, on diminue les accidents en ajoutant des tranches (davantage de défenses, comme les checklists à deux), en réduisant les trous (un bon équipement offre moins d'occasions de ratés et de fautes) et en s'assurant que les couches diffèrent, pour que leurs trous ne se superposent pas. Comme le résumait la présidente du NTSB, deux millions de personnes volent chaque jour en sécurité aux États-Unis « en grande partie grâce à la redondance de conception et aux couches de défense ». Redondance et couches de défense : voilà le fromage suisse.

Quand le bon design ne suffit pas

Norman est honnête : non, ce n'est pas toujours la faute du design. Une personne compétente peut perdre sa compétence si elle manque de sommeil ou est sous l'emprise de l'alcool — d'où les lois encadrant les pilotes (et l'incohérence de laisser des médecins opérer après des veilles que l'aviation interdirait). La conduite en état d'ivresse reste une cause majeure d'accidents, clairement imputable au conducteur. Mais que les gens soient parfois fautifs ne justifie pas de les supposer toujours fautifs : l'immense majorité des accidents découle d'une mauvaise conception. Et la loi des grands nombres est implacable : une activité qui ne tue qu'une fois sur un million, multipliée par des millions d'occurrences, fait des centaines de morts — tel ce pilote qui, voyant chuter la pression d'huile de ses trois moteurs, conclut à une panne d'instrument « car la probabilité que ce soit vrai est d'une sur un million ». Il avait raison sur la probabilité. Il était le un.

Pour les grands systèmes complexes — raffineries, réseaux électriques, hôpitaux —, Norman défend l'ingénierie de la résilience (resilience engineering) : concevoir équipements, procédures, management et formation pour répondre aux problèmes à mesure qu'ils surgissent, en évaluant et améliorant continuellement. Les grands fournisseurs informatiques provoquent ainsi délibérément des pannes en production pour vérifier que les redondances fonctionnent vraiment — seuls de vrais tests à l'échelle portent la complexité du réel. Comme l'écrivent Hollnagel, Woods et Leveson, la résilience traite la sécurité comme une valeur fondamentale, non comme une marchandise à comptabiliser : « la sécurité ne se manifeste que par les événements qui n'arrivent pas ».

À retenir

Cette philosophie s'oppose frontalement à la culture du blâme. Norman plaide pour une culture juste (just culture) : non punir, mais comprendre pourquoi l'erreur s'est produite et changer les choses pour qu'elle ne se reproduise plus. Tant qu'on cherche un coupable, les organisations refusent de toucher à la conception — « si une personne est en faute, remplacez-la ». Mais ce sont presque toujours le système, les procédures et les pressions sociales qui ont mené au problème, et le problème ne sera pas résolu sans les traiter tous.

Le paradoxe de l'automatisation

Les machines deviennent plus intelligentes, et l'on croit que les difficultés du contrôle humain disparaîtront avec elles. C'est vrai tant que l'automatisation fonctionne : elle accomplit la tâche aussi bien ou mieux que l'humain, le libère des routines mornes, réduit fatigue et erreur. Mais survient le paradoxe de l'automatisation (paradox of automation) : quand la tâche devient trop complexe, l'automatisation abandonne — précisément au moment où elle serait la plus utile. Elle prend en charge le facile et rend la main sur le difficile.

Attention

Quand l'automatisation lâche, c'est souvent sans prévenir, et l'humain est « hors de la boucle » (out of the loop) : il n'a pas suivi l'opération, et il lui faut du temps pour remarquer la défaillance, l'évaluer, puis décider. En avion, à plus de 10 km d'altitude, un pilote bien entraîné dispose de quelques minutes ; en voiture, le conducteur n'a parfois qu'une fraction de seconde. L'échouage du paquebot Royal Majesty en 1997 est exemplaire : le câble de l'antenne GPS s'était débranché, le système bascula silencieusement en navigation à l'estime, signalée par un minuscule « dr » à l'écran que personne ne vit. L'automatisation avait été parfaite pendant des années — ce qui avait accru la confiance et relâché les vérifications. Énorme erreur de mode, des jours durant, découverte seulement après l'échouage.

La leçon finale tient dans l'idée de collaboration. Les difficultés naissent quand on cesse de penser humains et machines comme un système coopératif et qu'on confie aux machines ce qui s'automatise, laissant le reste aux gens — leur imposant alors de se comporter en machines : surveiller des heures, répéter avec une précision parfaite, tâches pour lesquelles nous sommes biologiquement inaptes. Puis, quand ils échouent, on les blâme. Ce que nous appelons « erreur humaine » est souvent une action humaine inadaptée aux besoins de la technologie : elle signale un déficit de la technologie. Les meilleurs designs prennent l'erreur pour acquise et cherchent à la rendre rare et peu coûteuse : mettre le savoir dans le monde, exploiter contraintes et fonctions de forçage, franchir les deux gouffres — d'exécution (gulf of execution) et d'évaluation (gulf of evaluation) — en rendant tout visible. En somme : embrasser l'erreur, en comprendre les causes, assister plutôt que punir.

À retenir

L'« erreur humaine » est, dans la quasi-totalité des cas, un échec de conception : si le système vous laisse — ou pire, vous induit à — vous tromper, c'est lui qu'il faut reconcevoir. Ne vous arrêtez jamais à la première erreur humaine : poussez l'analyse des causes profondes jusqu'au bout (les « cinq pourquoi »).
Deux familles aux remèdes distincts : les ratés (bon but, mauvaise action — subconscients, fréquents chez les experts) et les fautes (mauvais but ou plan — conscientes, fréquentes chez les novices). Les fautes sont les plus difficiles à détecter, car les actions confirment le plan erroné.
Les ratés se déclinent en capture, similarité de description, trou de mémoire et erreur de mode ; les fautes en règles, connaissances et trou de mémoire. À chaque type sa parade : séquences distinctes dès le départ, commandes différenciées, fonctions de forçage, modes visibles, information continuellement disponible.
Concevez pour l'erreur : contraintes physiques, contrôles de vraisemblance, annulation (undo) plutôt que confirmation tardive, détection et correction faciles ; traitez l'action de l'utilisateur comme une approximation à aider, non comme une faute à sanctionner.
Le modèle du fromage suisse rappelle qu'un accident exige l'alignement de plusieurs trous dans plusieurs couches de défense : ne cherchez pas la cause unique, mais ajoutez des tranches, rétrécissez les trous et rendez les couches différentes.
N'oubliez pas les pressions sociales et institutionnelles : pour comprendre l'erreur, il faut les comprendre. La hâte commandée par le temps et la rentabilité, le poids de la hiérarchie (copilote ignoré quatre fois sur le Potomac, objections étouffées à Tenerife), la crainte du ridicule — autant de forces qui poussent des gens sensés à agir contre leur propre jugement. Le bon design ne suffit pas : il faut former autrement et récompenser la sécurité.
Préférez une culture juste à la culture du blâme : facilitez et récompensez le signalement des erreurs (jidoka, poka-yoke, report semi-anonyme à la NASA), car « on ne corrige pas un problème tant qu'on n'admet pas qu'il existe ».
Méfiez-vous du paradoxe de l'automatisation : la machine gère le normal et abandonne le difficile, souvent sans prévenir, laissant l'humain « hors de la boucle ». Concevez humains et machines comme un système coopératif — assister plutôt que punir.