L'évaluation des modèles — Fundamentals of Machine Learning

Construire un modèle ne suffit pas : encore faut-il savoir s'il fait le travail pour lequel il a été conçu. C'est l'objet de la phase d'évaluation (evaluation) du cycle CRISP-DM, et c'est sans doute l'étape la plus négligée par les débutants. Comme le rappelle George Box, « tous les modèles sont faux, mais certains sont utiles » : aucun modèle n'est parfait, le but n'est donc pas d'atteindre la perfection mais d'estimer honnêtement la performance que le modèle aura une fois déployé, sur des données qu'il n'a jamais vues. Ce chapitre couvre les mesures de performance, la conception des expériences d'évaluation, et la surveillance des modèles après leur mise en production.

La grande idée : ne jamais se mentir sur la performance

En 1904, le physicien René Blondlot croyait fermement avoir découvert un nouveau rayonnement, les « rayons N ». Ses expériences, menées à Nancy, le confirmaient — jusqu'à ce que le physicien américain Robert Wood retire discrètement le prisme central de l'appareil pendant une démonstration, dans l'obscurité, sans que personne ne s'en aperçoive. Les mesures restèrent identiques. Les rayons N n'existaient pas : l'expérience reposait sur des observations subjectives qui ne contrôlaient aucune des autres causes possibles du phénomène. C'est l'un des exemples les plus célèbres de mauvaise conception expérimentale menant à des conclusions entièrement fausses, sans la moindre fraude.

La leçon pour l'analyse prédictive est limpide : une expérience d'évaluation doit être conçue pour donner une estimation fidèle de la performance future du modèle. Et la règle la plus importante de toute l'évaluation tient en une phrase : les données qui servent à évaluer un modèle ne doivent jamais être celles qui ont servi à l'entraîner.

À retenir

Le but de l'évaluation est triple : déterminer lequel de plusieurs modèles convient le mieux à une tâche, estimer comment le modèle se comportera une fois déployé, et convaincre le métier que le modèle répondra à ses besoins. Les deux premiers points relèvent de la mesure ; le troisième rappelle qu'un bon modèle doit aussi être rapide, compréhensible et facile à réentraîner.

L'approche standard : taux d'erreur sur un jeu de test

Le processus de base est simple. On prend un jeu de données pour lequel on connaît déjà les bonnes prédictions — le jeu de test (test set) —, on le présente au modèle entraîné, on enregistre ses prédictions, et on les compare aux valeurs attendues. La manière la plus simple de constituer ce jeu de test est le jeu de test par mise à l'écart (hold-out test set) : on prélève au hasard une fraction des données préparées, qu'on réserve et qui ne participe jamais à l'entraînement.

Cette précaution évite le phénomène de triche par anticipation (peeking) : si l'on évaluait un modèle sur les données qui l'ont entraîné, il aurait « déjà vu » ces exemples et paraîtrait excellent. Le cas extrême est celui des k plus proches voisins : interrogé sur un exemple de son jeu d'entraînement, le modèle retrouve cet exemple comme son propre plus proche voisin et obtient une performance apparente parfaite. Le jeu de test mesure au contraire la capacité du modèle à généraliser au-delà des données d'entraînement.

La matrice de confusion

Considérons un problème de classification d'emails opposant spam et ham (courrier légitime). Sur 20 prédictions, supposons 5 erreurs. Le taux d'erreur (misclassification rate) est le nombre de prédictions incorrectes divisé par le nombre total de prédictions, soit 5 ÷ 20 = 0,25, ou 25 %. Il varie dans [0, 1] et plus il est bas, mieux c'est. Son opposé est l'exactitude (classification accuracy) : 1 − 0,25 = 0,75, soit 75 %.

Mais un chiffre unique cache l'essentiel. La matrice de confusion (confusion matrix) détaille comment le modèle se trompe. Pour une cible binaire, on nomme par convention un niveau « positif » (ici spam, le niveau d'intérêt) et l'autre « négatif » (ham), et il n'existe que quatre issues :

Vrai positif (true positive, TP) : positif prédit positif ;
Vrai négatif (true negative, TN) : négatif prédit négatif ;
Faux positif (false positive, FP) : négatif prédit positif (une fausse alarme) ;
Faux négatif (false negative, FN) : positif prédit négatif (un raté).

                          Prédiction
                    positif        négatif
  Cible  positif      TP             FN
         négatif      FP             TN

Pour notre exemple d'emails, la matrice de confusion (avec spam comme niveau positif) est la suivante :

Cible \ Prédiction	spam	ham
spam	6 (TP)	3 (FN)
ham	2 (FP)	9 (TN)

La diagonale (TP et TN) porte les bonnes prédictions ; les chiffres élevés y sont bon signe. On retrouve le taux d'erreur directement : (FP + FN) ÷ (TP + TN + FP + FN) = (2 + 3) ÷ 20 = 0,25. La matrice révèle en outre une asymétrie : le modèle prédit ham à tort 3 fois sur les 9 vrais spam (33,3 %), mais prédit spam à tort seulement 2 fois sur les 11 vrais ham (18,2 %). Ce genre d'éclairage oriente le travail d'amélioration.

Note

Trois enseignements de cette approche de base : (1) il est crucial d'évaluer sur des données non utilisées pour l'entraînement ; (2) la performance globale peut se résumer en une seule mesure, comme le taux d'erreur ; (3) pour vraiment comprendre un modèle, il faut souvent regarder au-delà d'une mesure unique. Toute réduction de la matrice à un seul nombre entraîne une perte d'information : aucune mesure n'est universelle.

Concevoir l'expérience d'évaluation

Choisir la bonne mesure ne suffit pas ; il faut aussi le bon plan d'échantillonnage. L'objectif reste toujours d'obtenir la meilleure estimation de la performance après déploiement.

Mise à l'écart simple et jeu de validation

La mise à l'écart est la forme la plus simple : un échantillon pour entraîner, un autre, disjoint, pour tester. Elle convient surtout aux grands jeux de données, où les deux partitions restent assez grandes. On y ajoute souvent un troisième échantillon, le jeu de validation (validation set), nécessaire dès qu'il faut régler certains aspects du modèle sur des données extérieures à l'entraînement — par exemple lors d'une sélection de variables de type « enveloppe » (wrapper). Des partages entraînement:validation:test de 50:20:30 ou 40:20:40 sont courants.

L'un des usages majeurs du jeu de validation est de prévenir le surapprentissage (overfitting) dans les algorithmes itératifs qui construisent des modèles de plus en plus complexes (ID3 pour les arbres, descente de gradient pour la régression).

Erreur
  ^
  |                                    validation (données non vues)
  |                               ___/
  |                          ___/
  |     ________________/   <- ici le surapprentissage commence
  |      ___                       (itération ~100)
  |          _____ entraînement (baisse indéfiniment)
  +-------------------------------------------------> itérations

Tant que l'erreur sur le jeu de validation baisse de concert avec celle de l'entraînement, tout va bien. Le point où l'erreur de validation recommence à monter signale le début du surapprentissage : on entraîne au-delà, mais on conserve le modèle de chaque itération, et l'on revient finalement au modèle correspondant à ce minimum. C'est la même logique que le post-élagage des arbres de décision.

La mise à l'écart pose deux problèmes. D'abord, elle exige assez de données pour des partitions suffisamment grandes. Ensuite, un partage chanceux (lucky split) — qui placerait par hasard les cas difficiles dans l'entraînement et les cas faciles dans le test — gonflerait artificiellement la performance.

Validation croisée à k blocs

La validation croisée à k blocs (k-fold cross validation) répond à ces deux écueils. On divise les données en k blocs (folds) de taille égale et l'on mène k expériences. À chaque tour, un bloc différent sert de test et les k − 1 autres servent d'entraînement ; on enregistre les mesures, puis on agrège les k résultats en une mesure d'ensemble. La valeur k = 10 est la plus répandue.

Bloc :   1     2     3     4     5
Exp.1 [ TEST  ----  ----  ----  ---- ]
Exp.2 [ ----  TEST  ----  ----  ---- ]
Exp.3 [ ----  ----  TEST  ----  ---- ]
Exp.4 [ ----  ----  ----  TEST  ---- ]
Exp.5 [ ----  ----  ----  ----  TEST ]
        ( TEST = bloc évalué ; ---- = entraînement )

Prenons un système médical classant l'orientation de radiographies thoraciques (latérale ou frontale) sur 1 000 instances, évalué en validation croisée à 5 blocs (200 instances par bloc). Pour agréger, on somme cellule à cellule les cinq matrices de confusion ; l'exactitude globale, calculée sur cette matrice cumulée, vaut ici 84 %. L'accent se déplace alors de « un modèle » vers « un ensemble de k modèles », mais le but reste l'estimation de la performance post-déploiement. Sur de petits jeux, cette agrégation donne une estimation plus fiable qu'un modèle unique. Une fois la performance estimée, on entraîne le modèle à déployer sur la totalité des données disponibles — ce qui distingue la validation croisée de la mise à l'écart, où l'on déploie tel quel le modèle évalué.

Leave-one-out et bootstrap

Le leave-one-out (aussi nommé jackknife) est la validation croisée poussée à l'extrême : k égale le nombre d'instances, chaque bloc de test ne contenant qu'une seule instance. Utile quand les données sont trop rares pour des blocs assez grands.

Le bootstrap (en particulier le bootstrap ε0) est préféré pour les très petits jeux (moins de 300 instances environ). À chaque itération, on tire au hasard m instances pour le test, le reste servant d'entraînement, et l'on calcule une mesure. Le processus est répété pour k itérations — typiquement k ≥ 200, bien plus que pour la validation croisée — et l'on moyenne ces mesures (le fameux ε0).

Échantillonnage hors période

Quand les données comportent une dimension temporelle, on peut exploiter cette structure : l'échantillonnage hors période (out-of-time sampling) entraîne sur une période et teste sur une autre. Dans un scénario d'attrition client, on entraîne sur le comportement d'une année et l'on teste sur la suivante.

Attention

L'échantillonnage hors période exige de la prudence : si l'entraînement couvre l'été et le test l'hiver, l'évaluation d'un modèle de demande énergétique d'un logement sera trompeuse, les deux périodes n'étant pas représentatives l'une de l'autre. Veillez à des plages assez larges pour absorber les cycles saisonniers.

Mesures de performance pour cibles catégorielles

La matrice de confusion est le socle d'une foule de mesures qui mettent en lumière des aspects différents de la performance.

Taux dérivés et précision / rappel

Les taux de base convertissent les comptes bruts en pourcentages : TPR = TP ÷ (TP + FN) (taux de vrais positifs, aussi appelé sensibilité), TNR = TN ÷ (TN + FP) (taux de vrais négatifs, ou spécificité), avec les relations FNR = 1 − TPR et FPR = 1 − TNR. Pour nos emails, TPR = 6 ÷ 9 ≈ 0,667 et TNR = 9 ÷ 11 ≈ 0,818 : le modèle reconnaît mieux le ham que le spam.

La précision (precision) et le rappel (recall) sont définis ainsi :

précision = TP ÷ (TP + FP)      rappel = TP ÷ (TP + FN)

Le rappel est identique au TPR : il dit avec quelle confiance on a retrouvé toutes les instances réellement positives. La précision dit, quand le modèle annonce « positif », à quelle fréquence il a raison. Pour les emails : précision = 6 ÷ 8 = 0,75 et rappel = 6 ÷ 9 ≈ 0,667. Interprétation concrète : 1 − précision = 25 % est la probabilité qu'un email légitime soit marqué spam (et peut-être supprimé) ; 1 − rappel = 33,3 % est la probabilité qu'un spam atterrisse dans la boîte de réception. Avoir les deux nombres permet d'arbitrer entre les deux types d'erreur.

On condense précision et rappel en une seule mesure, la mesure F1 (F1 measure), qui est leur moyenne harmonique :

F1 = 2 × (précision × rappel) ÷ (précision + rappel)

La moyenne harmonique tire vers les petites valeurs et résiste mieux aux valeurs aberrantes que la moyenne arithmétique — utile pour qu'une mesure souligne les faiblesses plutôt que de les masquer. Pour les emails : F1 = 2 × (0,75 × 0,667) ÷ (0,75 + 0,667) ≈ 0,706. Précision, rappel et F1 brillent sur les cibles binaires en mettant l'accent sur le niveau positif, le plus important — pertinent en diagnostic médical, par exemple.

Exactitude moyenne par classe et classes déséquilibrées

L'exactitude brute peut dissimuler une mauvaise performance. Considérons un problème d'attrition (churn) avec 90 non-churn et seulement 10 churn dans le test — un cas déséquilibré.

	Modèle k-NN	Modèle Bayes naïf
Matrice (non-churn / churn)	90 / 0 — 9 / 1	70 / 20 — 2 / 8
Exactitude	91 %	78 %
Rappel non-churn	1,00	0,778
Rappel churn	0,10	0,80

Le modèle k-NN affiche 91 % d'exactitude mais ne détecte qu'un churn sur dix : la performance écrasante sur le niveau majoritaire noie sa nullité sur le niveau qui compte. L'exactitude moyenne par classe (average class accuracy) corrige ce biais en moyennant le rappel de chaque niveau :

exactitude_moyenne_AM = ( Σ recall(l) ) ÷ |niveaux(t)|        (moyenne arithmetique)

exactitude_moyenne_HM = |niveaux(t)| ÷ ( Σ 1 ÷ recall(l) )     (moyenne harmonique)

Avec la moyenne harmonique (recommandée car plus pessimiste, elle valorise les petites valeurs et résiste aux aberrations), le Bayes naïf devient supérieur au k-NN — conclusion inverse de celle de l'exactitude brute, mais bien plus juste vu le déséquilibre.

Piège courant

Sur des classes déséquilibrées, l'exactitude brute est trompeuse : un classifieur qui prédit toujours la classe majoritaire peut sembler excellent tout en étant inutile. Choisissez la mesure selon le problème : exactitude moyenne par classe (moyenne harmonique) pour les cibles catégorielles, et coefficient R² pour les cibles continues — ce sont les recommandations par défaut du livre en l'absence d'autre information.

Mesurer le profit et la perte

Toutes les mesures précédentes traitent les cellules de la matrice à égalité. Or les issues n'ont pas le même coût. Une matrice de profit (profit matrix), de même structure que la matrice de confusion, attribue à chaque issue une valeur déterminée par l'expertise métier. Pour un crédit à la consommation où un prêt typique rapporte 140 $ d'intérêts et où un défaut coûte 700 $ :

Cible \ Prédiction	good	bad
good	+140	−140
bad	−700	0

On calcule le profit total en multipliant chaque cellule de la matrice de confusion par la cellule correspondante de la matrice de profit, puis en sommant. Pour deux modèles de ce problème, l'exactitude moyenne par classe (harmonique) donne 83,8 % au k-NN contre 80,8 % à l'arbre de décision — avantage k-NN. Mais le calcul de profit inverse le classement : 560 $ pour le k-NN, 1 540 $ pour l'arbre. Le k-NN classe plus souvent un mauvais emprunteur en good, l'erreur la plus coûteuse. Le profit est une mesure idéale… quand on peut remplir la matrice, ce qui est rare : en diagnostic médical, on peut affirmer qu'un faux négatif est pire qu'un faux positif sans pour autant le quantifier.

Mesures fondées sur les scores de prédiction

Aucun des modèles vus jusqu'ici ne produit directement un niveau : tous génèrent un score de prédiction (prediction score) — une probabilité pour le Bayes naïf ou la régression logistique, une proportion à la feuille pour un arbre — qu'un seuil (threshold) convertit en classe. Pour une cible binaire, on attribue le niveau positif si score ≥ 0,5, sinon le négatif. Beaucoup de mesures exploitent la capacité du modèle à classer les instances positives au-dessus des négatives : plus les distributions de scores des deux niveaux sont séparées, meilleur est le modèle.

Courbe ROC et aire sous la courbe

Le seuil de 0,5 n'a rien de sacré. Le faire varier change les prédictions, donc TPR et TNR. En montant le seuil à 0,75, on devient plus exigeant pour annoncer « positif » : le TPR baisse, le TNR monte. En le descendant à 0,25, c'est l'inverse. Fait notable, le taux d'erreur global change peu car les faux positifs et faux négatifs se compensent.

La courbe ROC (receiver operating characteristic) capture ce compromis. On porte le TPR en ordonnée et le FPR (1 − TNR) en abscisse ; chaque seuil possible donne un point dans l'espace ROC, et l'on relie ces points.

TPR
1.0 |          ______________  <- modele quasi parfait
    |        /
    |      /        . modele moyen
    |    /      .
    |  /    .          ..... ligne aleatoire (diagonale)
    | / .       .....
    |/.   .....
0.0 +----------------------------> FPR
    0.0                      1.0

La diagonale en pointillés (0,0)→(1,1) représente un modèle qui devine au hasard ; toute courbe de modèle entraîné doit passer au-dessus. Plus la courbe se rapproche du coin supérieur gauche (TPR = 1, FPR = 0), plus le modèle est performant. On peut superposer plusieurs courbes pour comparer des modèles d'un coup d'œil.

Pour un classement numérique, on calcule l'aire sous la courbe (area under the curve, AUC), aussi nommée indice ROC, par la méthode des trapèzes. Elle varie dans [0, 1] (une valeur sous 0,5 trahit en général une erreur d'étiquetage), et plus elle est grande, mieux c'est. Règle empirique : au-dessus de 0,7 le modèle est fort, en dessous de 0,6 il est faible. L'AUC s'interprète probabilistiquement comme la probabilité que le modèle attribue un rang plus élevé à un positif tiré au hasard qu'à un négatif tiré au hasard. Elle est robuste au déséquilibre des classes, d'où sa popularité.

Astuce

Le coefficient de Gini est un simple ré-étalonnage de l'AUC : Gini = 2 × AUC − 1. Il vaut 1 pour un modèle parfait et 0 pour un modèle aléatoire, et domine dans le scoring de crédit financier. (À ne pas confondre avec l'indice de Gini de la croissance des arbres : seul le nom du statisticien Corrado Gini les relie.)

K-S, gain et lift

D'autres mesures exploitent la séparation des distributions de scores. La statistique de Kolmogorov-Smirnov (K-S statistic) est l'écart maximal entre les distributions de probabilité cumulées des scores positifs et négatifs ; elle varie dans [0, 1], les valeurs élevées indiquant une nette séparation.

Le gain et le lift se concentrent sur le seul niveau positif d'intérêt (spam, fraude, répondants à une offre). On classe les prédictions par score décroissant et on les découpe en déciles (decile = 10 % du jeu). Le gain d'un décile est la part des positifs totaux qu'il contient ; le gain cumulé (cumulative gain) additionne les déciles jusqu'à un point donné. Sur l'exemple des emails, dès le 4ᵉ décile (40 % des données), 66,7 % des spams sont déjà identifiés. Le lift mesure de combien la proportion de positifs d'un décile dépasse la proportion attendue par un tirage aléatoire :

lift(decile) = (% de positifs dans le decile) ÷ (% de positifs dans la population)

Un lift supérieur à 1 signifie « mieux que le hasard ». Le gain cumulé est précieux en gestion de la relation client : il dit combien de clients contacter pour atteindre un pourcentage donné de répondants — information clé pour budgéter une campagne.

Mesures pour cibles continues

Pour une cible continue, on dispose de moins d'options. Le point de départ est la somme des erreurs au carré (L2), modifiée en erreur quadratique moyenne (mean squared error, MSE) :

MSE = ( Σ ( t(i) − prediction(d(i)) )² ) ÷ n

Elle vit dans [0, ∞], plus petite est meilleure, et permet de classer les modèles. Mais sa valeur, exprimée en unités au carré, n'est guère parlante. On lui préfère souvent l'erreur quadratique moyenne racine (root mean squared error, RMSE), qui revient aux unités de la cible :

RMSE = √( MSE )

Sur la prédiction de la dose d'un anticoagulant (en mg), comparons une régression linéaire multivariable à un k-NN :

Mesure	Régression linéaire	k-NN
MSE	1,905	4,394
RMSE	1,380	2,096
MAE	0,975	1,750
R²	0,889	0,776

La RMSE dit que la régression se trompe en moyenne de 1,38 mg, le k-NN de 2,10 mg. À cause du terme au carré, la RMSE surestime légèrement l'erreur en surpondérant les grandes erreurs individuelles. L'erreur absolue moyenne (mean absolute error, MAE) évite ce terme :

MAE = ( Σ abs( t(i) − prediction(d(i)) ) ) ÷ n

Comme pour l'exactitude moyenne par classe, le livre recommande la RMSE plutôt que la MAE : mieux vaut rester pessimiste quand on estime la performance.

RMSE et MAE ont l'inconvénient d'être en unités de la cible : sans connaissance du domaine, impossible de juger si 1,38 mg est bon ou mauvais. Le coefficient R² (R² coefficient) fournit une mesure indépendante du domaine. Il compare le modèle à un modèle imaginaire qui prédirait toujours la moyenne du jeu de test :

R² = 1 − ( somme des erreurs au carre ) ÷ ( somme totale des carres )

somme totale des carres = Σ ( t(i) − moyenne(t) )²

R² vit dans [0, 1), plus grand est meilleur. Il s'interprète comme la part de variation de la cible expliquée par les variables descriptives du modèle. Ici, 0,889 pour la régression contre 0,776 pour le k-NN : même conclusion que la RMSE, mais sans connaissance préalable du domaine.

Évaluer le modèle après déploiement

Les données changent : les gens vieillissent, les salaires suivent l'inflation, le contenu des spams évolue. Ce phénomène est la dérive conceptuelle (concept drift). Presque tout modèle finit par se périmer (go stale) : les relations apprises entre variables descriptives et cible cessent de tenir. Il faut donc une surveillance continue, alimentée par trois sources de signal : la performance mesurée du modèle, la distribution de ses sorties, et la distribution des variables descriptives des requêtes.

Surveiller la performance est le plus simple : on recalcule la même mesure (RMSE, par exemple) sur les nouvelles requêtes une fois leurs vraies cibles connues, et un écart marqué signale la péremption. Mais cela suppose que la vraie cible devienne disponible rapidement — vrai pour l'attrition ou le scoring de crédit, faux dans bien d'autres cas.

Surveiller la distribution des sorties lève cette contrainte. L'indice de stabilité (stability index) compare la distribution des prédictions actuelles à celle du jeu de test d'origine :

SI = Σ ( ( pct_nouveau(l) − pct_original(l) ) × loge( pct_nouveau(l) ÷ pct_original(l) ) )

Lecture : sous 0,1, les distributions sont semblables ; entre 0,1 et 0,25, un changement mérite enquête ; au-delà de 0,25, une action corrective s'impose. L'indice s'applique aux cibles catégorielles comme continues (en regroupant alors les valeurs en déciles). Son revers : il mesure un changement de population, pas directement de performance, et peut donc déclencher des reconstructions inutiles.

Note

Surveiller la distribution des variables descriptives est rarement recommandé au-delà d'une dizaine de variables (le changement d'une seule variable pèse peu), mais reste utile une fois la péremption détectée par ailleurs : comparer les distributions d'entrée d'hier et d'aujourd'hui aide à comprendre ce qui a changé avant de reconstruire le modèle.

Enfin, les expériences comparatives avec groupe témoin (control group) évaluent non la puissance prédictive, mais l'impact métier du modèle. Comme dans un essai clinique avec placebo, on fait tourner en parallèle le processus métier avec le modèle (groupe de traitement) et sans (groupe témoin). Un opérateur télécom mesura ainsi que sélectionner les 1 000 clients les plus à risque par un modèle d'attrition réduisait le nombre de départs (moyenne de 17,7 par semaine) par rapport à une sélection aléatoire (20,5 par semaine) : preuve que le modèle aidait réellement à résoudre le problème métier, et pas seulement qu'il prédisait bien.

À retenir

L'évaluation vise à estimer la performance de généralisation ; la règle d'or est de ne jamais évaluer un modèle sur ses données d'entraînement, sous peine de « triche par anticipation » et de conclusions de type rayons N.
La matrice de confusion (TP, TN, FP, FN) est le socle des mesures catégorielles : taux d'erreur et exactitude, mais aussi précision (TP ÷ (TP+FP)), rappel (TP ÷ (TP+FN)) et leur moyenne harmonique, la F1.
Choisissez la mesure selon le problème : sur classes déséquilibrées, l'exactitude brute trompe ; préférez l'exactitude moyenne par classe (harmonique) pour les cibles catégorielles et le R² pour les cibles continues.
Le plan d'échantillonnage dépend du volume : mise à l'écart (gros jeux, avec jeu de validation contre le surapprentissage), validation croisée à k blocs (cas général, k = 10), leave-one-out et bootstrap (petits jeux, < 300), hors période quand le temps compte.
La courbe ROC (TPR contre FPR) visualise le compromis selon le seuil ; l'AUC la résume en un nombre (> 0,7 fort, < 0,6 faible), robuste au déséquilibre, et le coefficient de Gini = 2 × AUC − 1 domine en finance.
Pour les cibles continues : MSE, sa racine RMSE (en unités de la cible, légèrement pessimiste), la MAE, et le R² indépendant du domaine (part de variation expliquée).
Après déploiement, la dérive conceptuelle périme les modèles : surveillez la performance, la distribution des sorties (indice de stabilité : 0,1 / 0,25) et, en complément, les variables descriptives ; un groupe témoin mesure l'impact métier réel.