Études de cas : churn client et classification de galaxies — Fundamentals of Machine Learning

Les chapitres précédents ont disséqué chaque famille d'apprentissage — par l'information, par la similarité, par la probabilité, par l'erreur — ainsi que l'évaluation des modèles. Mais un projet d'analytique prédictive ne se réduit jamais à choisir un algorithme : il s'inscrit dans le cycle CRISP-DM (Cross-Industry Standard Process for Data Mining), de la compréhension métier au déploiement, en passant par la compréhension des données, leur préparation, la modélisation et l'évaluation. Ce chapitre suit deux praticiens fictifs — Ross chez un opérateur télécom et Jocelyn sur un relevé astronomique — qui parcourent ce cycle de bout en bout. Les deux récits montrent que l'essentiel du travail réel se joue en amont du modèle, dans la traduction du problème métier en problème analytique, dans la conception de la table d'analyse de base (analytics base table, ABT) et dans l'examen patient des données.

Étude de cas 1 : la résiliation client (customer churn)

Acme Telephonica (AT) est un opérateur de téléphonie mobile présent dans tous les États américains. Comme tout acteur du secteur, AT subit la résiliation (churn) : des clients qui partent à la concurrence. Depuis 2008, une équipe de rétention surveille le nombre d'appels passés au support client et contacte les clients « à risque » — définis par un critère unique : plus de trois appels au support sur deux mois — avec des offres spéciales. Cette approche n'a guère porté ses fruits, et le churn n'a cessé de croître. En 2010, AT recrute Ross, spécialiste de l'analytique prédictive, pour aborder le problème autrement.

Compréhension métier : du problème métier à la solution analytique

Comme dans la plupart des projets, AT n'apporte pas à Ross une solution bien spécifiée, mais un problème métier : réduire le churn. La première tâche de Ross est donc de convertir ce problème en une solution analytique concrète. Il commence par cerner les objectifs : AT veut faire passer son taux de churn d'environ 10 % à environ 7,5 %, une cible jugée réaliste. Ross insiste cependant sur un point méthodologique fondamental : tant qu'il n'a pas examiné les données, il ne peut pas savoir quelle qualité de modèle il pourra produire.

Ross développe ensuite sa fluidité situationnelle (situational fluency) en s'entretenant longuement avec Kate (équipe de rétention) et Grace (la directrice technique, gardienne des données). Il apprend la structure du métier : contrats renouvelés chaque mois, forfaits de minutes incluses, minutes hors forfait (over bundle) plus chères, distinction entre appels en heures pleines (peak) et heures creuses (off-peak). De ces échanges émerge une liste de solutions analytiques candidates :

Solution candidate	Verdict
Valeur vie client (lifetime value)	Trop grand changement de processus à ce stade
Prédire qui va churner prochainement	Retenue : données disponibles, intégrable au processus existant
Quelle offre de rétention proposer	Pas de données sur le succès des offres passées
Quels équipements réseau vont tomber en panne	Hypothèse mal étayée (le churn dépendrait des pannes)

La prédiction du churn l'emporte pour trois raisons : les données nécessaires sont accessibles, le modèle s'intègre au travail déjà mené par l'équipe de rétention, et il promet d'expliquer les facteurs de churn — précieux pour le reste de l'entreprise. Enfin, Ross fixe un objectif de performance chiffré : le système actuel atteint environ 60 % d'exactitude (accuracy) ; le nouveau devra dépasser 75 % pour mériter d'être déployé.

À retenir

Gérer les attentes du client est l'une des compétences les plus sous-estimées du praticien. S'accorder dès la compréhension métier sur une cible de performance chiffrée évite les déceptions et les conflits aux étapes ultérieures. C'est ce que Ross fait avec AT (75 %), et que Jocelyn fera avec le SDSS (80 %).

Compréhension des données : définir le sujet et la cible

Le but étant de prédire si un client va churner, le sujet de prédiction (prediction subject) est le client : l'ABT comportera une ligne par client. Prédire le churn relève de la modélisation de propension (propensity modeling), où l'événement d'intérêt est la décision de churner. Ross doit donc s'accorder avec le métier sur une définition opérationnelle : un client inactif pendant un mois (aucun appel, aucune facture payée) ou ayant explicitement résilié est considéré comme ayant churné.

Il définit aussi les deux fenêtres temporelles indispensables à toute modélisation de propension : la période d'observation (observation period), pendant laquelle on collecte le comportement — fixée à 12 mois — et la période de résultat (outcome period) — fixée à 3 mois, car l'entreprise veut une alerte trois mois avant le churn pour avoir le temps d'agir.

        période d'observation              période de résultat
   |------------------------------|     |------------------------|
   collecte des features         instant t          churn ? (cible)
   (comportement sur 12 mois)   prédiction      (fenêtre de 3 mois)

À partir de concepts de domaine (domain concepts) — démographie, facturation, équipement, interactions avec le support, habitudes d'appel, et surtout les changements (le changement est souvent le moteur de la propension) — Ross dérive des features descriptives. Certaines sont des copies brutes (AGE, CREDITRATING), d'autres sont calculées : HANDSETAGE (ancienneté du téléphone), BILLAMOUNTCHANGEPCT (variation de la facture d'un mois sur l'autre), NEWFREQUENTNUMBERS (nouveaux numéros appelés fréquemment). Certaines features désirables restent impossibles : AT voulait détecter les appels vers des réseaux concurrents, mais ses enregistrements n'identifient pas le réseau appelé.

Feature (extrait de l'ABT)	Description
`AVGOVERBUNDLEMINS`	Minutes hors forfait moyennes par mois
`BILLAMOUNTCHANGEPCT`	Variation de la facture (mois précédent → mois courant)
`CALLMINUTESCHANGEPCT`	Variation des minutes consommées
`HANDSETAGE`	Ancienneté du téléphone actuel
`CUSTOMERCARECALLS`	Appels au support le mois dernier
`LIFETIME`	Nombre de mois d'ancienneté chez AT
`CHURN`	La feature cible

Préparation des données : l'écueil du déséquilibre

L'ABT finale contient 10 000 instances, réparties à parts égales entre churners et non-churners. Or, dans les données brutes, les non-churners écrasent les churners avec un ratio supérieur à 10 contre 1 : c'est un jeu déséquilibré (imbalanced dataset). Plusieurs algorithmes apprennent mieux sur un échantillon équilibré, d'où le ré-échantillonnage de Ross. Ce choix aura des conséquences cruciales lors de l'évaluation.

Le rapport de qualité des données (data quality report) révèle plusieurs problèmes que Ross traite méthodiquement :

Problème détecté	Décision
`AGE` : 11,47 % de valeurs manquantes	Conservée puis finalement supprimée
`OCCUPATION` : 47,8 % manquantes	Supprimée
`REGIONTYPE` : 74 % manquantes	Conservée (liée à la cible), libellés harmonisés
`INCOME` : cardinalité de 10 seulement	En réalité catégorielle (revenus en tranches)
`REGIONTYPE` : doublons de libellés (town / t)	Mappée vers un schéma unique
Outliers (`AVGMINS` à 6 336, `AVGOVERBUNDLEMINS`)	Outliers valides confirmés, notés pour la modélisation

L'examen visuel se révèle décisif : la distribution étrange d'AVGOVERBUNDLEMINS (minimum, 1er quartile et médiane à 0, mais moyenne de 40) s'explique simplement — la plupart des clients ne dépassent pas leur forfait, d'où le pic massif à zéro. Aucune feature individuelle ne montre de lien fort avec la cible, mais des relations sont visibles : les clients ruraux churnent un peu plus, ceux qui churnent dépassent davantage leur forfait. Enfin, Ross partitionne aléatoirement : 50 % entraînement, 20 % validation, 30 % test — cette dernière partition n'étant utilisée que pour l'ultime évaluation.

Note

Une partition de validation distincte permet d'accorder (tuning) le modèle — ici, l'élagage — sans jamais toucher à l'ensemble de test. Mélanger ces rôles revient à se mentir sur la performance attendue, car le modèle « voit » indirectement les données censées le juger.

Modélisation : l'arbre de décision et l'élagage

La cible étant catégorielle, et l'ABT mêlant features continues et catégorielles, les arbres de décision (decision trees) s'imposent : ils gèrent les deux types de features, tolèrent valeurs manquantes et outliers sans transformation, et — atout majeur ici — sont interprétables, offrant un aperçu des moteurs du churn. Ross utilise le gain d'information (information gain) fondé sur l'entropie comme critère de partition.

Le premier arbre, sans élagage, atteint 74,873 % d'exactitude de classe moyenne (average class accuracy) sur le test — encourageant, mais sa profondeur et sa complexité excessives trahissent un surajustement (overfitting). Le second arbre applique un post-élagage par réduction d'erreur (reduced error pruning), possible car la partition de validation est suffisamment grande. Résultat : un arbre bien plus simple, et une exactitude portée à 79,03 %.

                 [ AVGOVERBUNDLEMINS ]
                 /                    
            faible                   élevé
              |                        |
   [ BILLAMOUNTCHANGEPCT ]        [ HANDSETAGE ]
      /                           /          
  stable       forte hausse    récent      ancien
 NON-CHURN       CHURN        NON-CHURN     CHURN

Les features les plus informatives — au sommet de l'arbre — sont identiques avant et après élagage : AVGOVERBUNDLEMINS, BILLAMOUNTCHANGEPCT et HANDSETAGE. Voici la matrice de confusion (confusion matrix) de l'arbre élagué sur le test stratifié :

	Prédit churn	Prédit non-churn	Rappel
Réel churn	1 058	442	70,53 %
Réel non-churn	152	1 348	89,86 %

Évaluation : quand 79 % cache un piège

L'exactitude de 79,03 % dépasse confortablement la cible de 75 %. Mais ce chiffre est trompeur. Il a été mesuré sur un test stratifié à 50/50, alors que la population réelle d'AT affiche un ratio proche de 10/90. Ross fait donc générer un second échantillon, non stratifié, reflétant la distribution réelle :

	Prédit churn	Prédit non-churn	Rappel
Réel churn	1 115	458	70,88 %
Réel non-churn	1 439	12 878	89,95 %

L'exactitude de classe moyenne reste de 79,284 %, confirmant la solidité du modèle. Surtout, les courbes de gain cumulé (cumulative gain) montrent qu'en appelant seulement 40 % de la base clients, AT identifierait environ 80 % des futurs churners — preuve forte que le modèle discrimine bien.

Attention

Évaluer un modèle de churn uniquement sur un jeu de test stratifié (équilibré artificiellement) surestime sa performance opérationnelle. La distribution réelle de production est déséquilibrée ; il faut impérativement une seconde évaluation sur un échantillon non stratifié, et privilégier des mesures comme l'exactitude de classe moyenne et le rappel par classe plutôt que l'exactitude brute.

Pour gagner la confiance du métier, Ross crée une version volontairement tronquée (stunted) de l'arbre, limitée à 5 niveaux : exactitude légèrement inférieure (78,5 %) mais lisibilité maximale. La leçon métier est claire : on churne surtout quand la facture change brutalement, quand on commence à dépasser le forfait, ou quand on possède un téléphone depuis longtemps. Fait notable, les appels au support — base de l'ancien système d'AT — ne ressortent pas comme déterminants. Enfin, un test en groupe de contrôle (control group test) sur deux mois tranche : le churn tombe à 7,4 % avec le nouveau modèle, contre plus de 10 % avec l'ancienne règle.

Déploiement

Le déploiement est facilité par l'existence d'un processus d'appels. Le vrai défi est un retour à la préparation des données : industrialiser les routines d'extraction-transformation-chargement (ETL) pour générer chaque mois des instances de requête fiables. Ross met enfin en place une surveillance continue : un rapport trimestriel compare les churns réels parmi les clients non contactés aux attentes du modèle, et déclenche un ré-entraînement si l'écart devient significatif (modèle « rance »).

Étude de cas 2 : la classification de galaxies (SDSS)

Le Sloan Digital Sky Survey (SDSS) cartographie le ciel nocturne avec une précision inédite : ses télescopes collectent plus de 175 Go par nuit. Chaque objet capté doit être identifié et catalogué quasiment en temps réel. Le SDSS sait déjà classer automatiquement étoiles et galaxies, mais bute sur un problème : catégoriser les galaxies selon leur morphologie (elliptiques, spirales). En 2011, il recrute Jocelyn pour bâtir un modèle de classification morphologique à intégrer dans son pipeline.

Compréhension métier : un problème déjà bien posé

À la différence d'AT, le SDSS arrive avec un problème déjà formulé en termes analytiques. La conversion problème métier → solution analytique est donc immédiate. Restent quelques détails à accorder avec Edwin, le contact scientifique. D'abord les catégories : Jocelyn propose de commencer par une classification grossière à 3 niveaux — elliptique, spirale, autre (cette dernière capturant les objets faussement étiquetés galaxies) — avant de tenter, selon les résultats, le découpage fin des spirales. Ensuite la cible de performance : 80 % d'exactitude suffiraient ; Jocelyn prévient qu'au-delà de 90 % serait improbable, car la classification morphologique est subjective — même les experts humains ne s'accordent pas toujours. Enfin la vitesse : le modèle devra traiter environ 1 000 classifications par seconde sur un serveur modeste pour ne pas ralentir le pipeline.

La fluidité situationnelle est ici particulièrement exigeante. Jocelyn lit la littérature scientifique du SDSS (un atout des contextes scientifiques) et apprend l'essentiel : deux instruments (caméra d'imagerie et spectrographe), cinq bandes photométriques (u, g, r, i, z), des mesures de luminosité (magnitude, flux), de couleur (comparaison de flux entre bandes) et de forme. Le spectrographe mesure aussi le décalage vers le rouge (redshift), indicateur de distance.

Compréhension des données : trouver une cible

Le sujet de prédiction est la galaxie (une ligne par galaxie). Mais deux observations de Ted, l'architecte des données, rebattent les cartes. Premièrement, les données spectrographiques ne couvrent que des centaines de milliers d'objets, contre des millions pour l'imagerie — toute solution dépendant du spectrographe serait inutilisable à grande échelle. Le concept de domaine « spectrographie » est donc abandonné. Deuxièmement, et c'est l'écueil majeur : malgré des données surabondantes, presque aucune n'est étiquetée avec la catégorie morphologique. Sans cible, ces données sont inutilisables pour l'apprentissage supervisé.

Piège courant

Disposer d'un volume « presque infini » de données ne sert à rien si elles ne portent pas la feature cible. L'absence d'étiquettes est l'une des contrariétés les plus fréquentes du praticien. Deux issues : lancer un coûteux projet d'étiquetage manuel par des experts, ou trouver une source externe fournissant la cible.

Jocelyn a la chance de trouver la seconde : Galaxy Zoo, un projet de science citoyenne où des volontaires classent des images de galaxies du SDSS. Galaxy Zoo fournit des étiquettes pour environ 600 000 galaxies, sous forme de fractions de votes par catégorie. Ce sont ces données qui détermineront aussi le sous-ensemble du SDSS utilisé.

Colonne (Galaxy Zoo)	Description
`P_EL`	Fraction de votes pour « elliptique »
`P_CW` / `P_ACW`	Fractions pour spirale horaire / antihoraire
`P_EDGE`	Fraction pour disque vu par la tranche
`P_MG` / `P_DK`	Fractions pour « fusion » / « ne sait pas »

Aucune colonne n'étant directement une cible, Jocelyn en construit deux. La cible à 3 niveaux : elliptique (majorité P_EL), spirale (majorité P_CW, P_ACW ou P_EDGE), autre (majorité P_MG ou P_DK). La cible à 5 niveaux distingue les sous-types de spirales. Les diagrammes en barres révèlent un déséquilibre marqué : les elliptiques dominent largement. Le téléchargement SDSS compte 600 000 lignes et 547 colonnes ; pour l'exploration (statistiques, visualisations), Jocelyn extrait un échantillon stratifié de 10 000 lignes.

Le rapport de qualité réserve une surprise : aucune valeur manquante, ce qui est très inhabituel. Mais des minimums à −9 999 sur des colonnes comme SKYIVAR_* trahissent en réalité des valeurs manquantes codées. En examinant à l'œil des extraits — pratique que tout praticien devrait adopter — Jocelyn découvre que ces −9 999 se regroupent par ligne (2 % des lignes). Elle vérifie d'abord que ce taux est homogène entre les niveaux de la cible (pas de lien valeur manquante / type de galaxie), puis supprime ces lignes par analyse des cas complets (complete case analysis). Des colonnes de cardinalité 1 (écart-type nul), sans aucune information, sont également retirées.

L'analyse SPLOM (matrice de nuages de points) confirme une forte redondance : les mesures dans les cinq bandes photométriques sont très corrélées. Edwin nuance toutefois — les différences entre bandes peuvent être prédictives. Cette redondance annonce que la sélection de features sera décisive pour réduire la dimensionnalité.

Préparation des données

L'ABT finale compte 327 features descriptives et deux cibles. Les outliers (valides, confirmés avec Edwin) sont traités par transformation par bornage (clamp transformation), avec un seuil ajusté à 2,5 fois l'écart interquartile plutôt que 1,5 pour limiter l'impact. Surtout, Jocelyn normalise toutes les features en scores standard : les amplitudes sont gigantesques (DEVAB_R ∈ [0,05 ; 1,00] contre APERFLUX7IVAR_U ∈ [−265 862 ; 15 274]). La normalisation améliore la précision des modèles ; son seul inconvénient — la perte d'interprétabilité — est sans importance ici, puisque le modèle tournera en aval du pipeline. Un premier classement par gain d'information fait ressortir les rayons de profil (EXPRAD_*, DEVRAD_*) comme les plus prédictifs.

Modélisation : du déséquilibre au choix du modèle

Les features étant majoritairement continues, Jocelyn écarte les arbres et compare trois modèles : k plus proches voisins (k nearest neighbor), régression logistique (logistic regression) et machine à vecteurs de support (support vector machine). Vu la taille de l'ABT, elle inverse la convention habituelle : 30 % entraînement (~200 000 instances, amplement suffisant) et 70 % test (~450 000). Validation croisée à 10 plis pour les modèles de référence (baseline) :

Modèle (baseline, 3 niveaux)	Exactitude	Exactitude de classe moyenne
k plus proches voisins	82,912 %	54,663 %
Régression logistique	86,041 %	62,137 %
Machine à vecteurs de support	85,942 %	58,107 %

L'écart béant entre les deux colonnes révèle le déséquilibre des niveaux cibles (target level imbalance). Le niveau dominant elliptique écrase les autres : pour la SVM, le taux d'erreur n'est que de 8,756 % sur les elliptiques, mais grimpe à 18,693 % sur les spirales et atteint un désastreux 98,230 % sur le niveau autre — presque ignoré. L'exactitude brute masque cette catastrophe ; l'exactitude de classe moyenne la révèle.

Astuce

Sur un jeu déséquilibré, l'exactitude globale peut rester élevée alors que le modèle ignore complètement les classes minoritaires. Confrontez-la toujours à l'exactitude de classe moyenne (moyenne harmonique des rappels par classe) et lisez la matrice de confusion ligne par ligne. Un excellent score global peut cacher un rappel quasi nul sur la classe qui vous importe.

Ce déséquilibre provient ici d'une rareté relative (relative rarity) — il y a beaucoup de galaxies autre et spirale, simplement bien plus d'elliptique — par opposition à la rareté absolue (où les exemples minoritaires manquent réellement). Jocelyn le corrige par sous-échantillonnage (under-sampling) du niveau majoritaire. Sur ce jeu équilibré, exactitude et exactitude de classe moyenne coïncident, et les rappels par classe deviennent comparables (le niveau autre est enfin prédit). Mais la performance globale baisse. Le choix relève alors d'un arbitrage applicatif : quelle erreur est la moins grave ? Avec Edwin, Jocelyn décide de viser l'exactitude globale sur le jeu original, car ce qui compte vraiment pour le SDSS est de bien classer elliptiques et spirales.

Sélection de features et modèles fins

Pour exploiter la redondance entre bandes, Jocelyn emploie une recherche séquentielle pas à pas (step-wise sequential search), une approche enveloppante (wrapper) qui considère des groupes de features ensemble — bien meilleure que le classement-élagage pour éliminer les redondances. La performance s'améliore pour les trois modèles :

Modèle (après sélection, 3 niveaux)	Exactitude	Exactitude de classe moyenne
k plus proches voisins	85,557 %	57,617 %
Régression logistique	88,829 %	67,665 %
Machine à vecteurs de support	87,188 %	60,868 %

La régression logistique l'emporte, en n'utilisant que 31 features sur 327 — confirmation spectaculaire de la redondance. Elle offre en prime deux atouts décisifs pour le pipeline : une classification très rapide, et des probabilités associées aux prédictions, permettant de rediriger les cas peu sûrs vers une vérification humaine.

Le modèle à 5 niveaux échoue, lui, sur un obstacle de fond. Que ce soit en direct (77,528 % d'exactitude, mais 43,018 % d'exactitude de classe moyenne) ou via un modèle à deux étages (3 niveaux, puis sous-classement des spirales — 79,410 %), aucune approche ne parvient à distinguer spirales horaires et antihoraires. Ce sens de rotation exigerait de nouvelles features issues du traitement d'image des galaxies brutes — hors du temps imparti. Jocelyn et Edwin s'en tiennent donc au modèle à 3 niveaux.

Évaluation : performance et confiance

L'évaluation finale se fait en deux temps. D'abord, le modèle retenu est testé sur le grand jeu de test de ~450 000 instances, jamais vu à l'entraînement : 87,979 % d'exactitude (67,305 % d'exactitude de classe moyenne), bien au-dessus de la cible de 80 %.

	Prédit elliptique	Prédit spirale	Prédit autre	Rappel
Réel elliptique	251 845	19 159	213	92,857 %
Réel spirale	25 748	128 621	262	83,179 %
Réel autre	4 286	2 648	2 421	25,879 %

Le second temps vise à instaurer la confiance des scientifiques. Edwin et quatre collègues classent indépendamment 200 galaxies tirées au hasard ; une classification majoritaire est calculée. Comparé à ces étiquettes humaines, le modèle atteint 78,278 % d'exactitude de classe moyenne — cohérent avec le test global. Mais la mesure la plus éclairante est l'accord inter-annotateurs (inter-annotator agreement) : le kappa de Cohen (Cohen's kappa) entre les cinq scientifiques ne vaut que 0,6. Autrement dit, les experts eux-mêmes ne s'accordent pas pleinement sur certaines galaxies — la frontière elliptique/spirale est intrinsèquement floue. Ce résultat replace la performance du modèle dans une juste perspective.

Note

Le kappa de Cohen mesure l'accord au-delà du hasard : 1,0 = accord total, 0,0 = accord équivalent au hasard. Une valeur autour de 0,6 est généralement jugée acceptable. Comparer la performance d'un modèle à l'accord humain établit une borne supérieure réaliste : on ne peut exiger d'un modèle qu'il dépasse la concordance des experts sur une tâche subjective.

Déploiement

L'intégration au pipeline soulève trois points. D'abord, les paramètres de normalisation (moyenne et écart-type de chaque feature) doivent être embarqués pour appliquer exactement le même prétraitement aux nouvelles galaxies. Ensuite, les probabilités de la régression logistique servent à flaguer pour revue manuelle toute galaxie dont la prédiction est incertaine (une probabilité proche de 0,333 pour trois classes traduit une grande indécision). Enfin, une surveillance du glissement de concept (concept drift) est mise en place via l'indice de stabilité (stability index) : une alerte se déclenche dès qu'il dépasse 0,25, signalant qu'un ré-entraînement mérite d'être envisagé.

Ce que ces deux cas enseignent ensemble

Les deux récits illustrent la même vérité : un projet réussi tient moins à l'algorithme qu'à la rigueur du processus. Tous deux passent l'essentiel de leur énergie en amont — comprendre le métier, traduire en problème analytique, concevoir l'ABT, examiner les données — et tous deux itèrent, revenant à des phases antérieures quand une découverte l'impose (Ross retourne à la préparation pour industrialiser l'ETL ; Jocelyn revoit ses concepts de domaine après les observations de Ted). Ils diffèrent par la famille de modèle (arbre interprétable contre régression logistique rapide), mais convergent sur le même piège central — le déséquilibre — et sur la même rigueur d'évaluation : ne jamais se fier à l'exactitude brute, toujours la confronter à la distribution réelle et aux rappels par classe.

À retenir

Un projet d'analytique prédictive suit le cycle CRISP-DM ; l'essentiel du travail se joue avant le modèle — traduire le problème métier en problème analytique et concevoir soigneusement l'ABT (une ligne par sujet de prédiction).
S'accorder dès la compréhension métier sur une cible de performance chiffrée (75 % pour AT, 80 % pour le SDSS) et développer sa fluidité situationnelle sont des compétences aussi décisives que le choix d'algorithme.
Le déséquilibre des classes est le piège récurrent : l'exactitude brute peut rester élevée alors qu'une classe minoritaire est ignorée ; confrontez-la toujours à l'exactitude de classe moyenne, aux rappels par classe et à la distribution réelle de production (test non stratifié).
Le choix du modèle dépend du contexte : arbre de décision pour des features mixtes et un besoin d'interprétation (churn) ; régression logistique pour des features continues, la rapidité et des probabilités exploitables (galaxies).
La sélection de features par recherche enveloppante peut réduire drastiquement la dimensionnalité (31 features sur 327) tout en améliorant la performance, surtout en présence de forte redondance.
L'examen visuel des données à l'œil nu (distributions étranges, valeurs −9 999 codant des manquants) débusque des problèmes invisibles aux seules statistiques résumées.
Comparer la performance à l'accord inter-annotateurs (kappa de Cohen) fixe une borne réaliste sur les tâches subjectives ; le déploiement exige d'industrialiser l'ETL, d'embarquer le prétraitement et de surveiller le glissement de concept.