L'art du machine learning prédictif — Fundamentals of Machine Learning

Construire un modèle n'est, paradoxalement, que la partie facile d'un projet d'analyse prédictive (predictive data analytics) : les algorithmes d'apprentissage automatique nous disent précisément comment le faire. Ce qui rend ce métier difficile — et fascinant —, c'est de répondre à la nuée de questions qui entourent la phase de modélisation : quelle cible viser, quelles variables retenir, comment traiter les valeurs manquantes, comment normaliser, quel type de modèle entraîner, comment l'évaluer. Souvent, on doit y répondre par intuition, expérience et expérimentation. C'est exactement ce qui fait du machine learning un art autant qu'une science. Ce chapitre final prend de la hauteur : il revisite les quatre familles d'apprentissage du livre, propose plusieurs manières de classer les modèles, et donne une méthode pour choisir la bonne approche en fonction du problème, des données et du contexte métier.

Apprendre, c'est induire — et donc biaiser

Tout projet d'analyse prédictive repose sur une forme particulière d'apprentissage : l'apprentissage inductif (inductive learning), qui consiste à inférer une règle générale à partir d'un ensemble d'instances spécifiques. Cette observation a deux conséquences lourdes. D'abord, un modèle appris par induction n'est jamais garanti correct : la règle générale induite d'un échantillon peut très bien être fausse pour certaines instances de la population entière. Ensuite — et c'est plus subtil —, aucun apprentissage ne peut avoir lieu sans biais. Il faut indiquer à l'algorithme quels types de motifs chercher dans les données.

Ce biais porte un nom : le biais inductif (inductive bias). Il rassemble l'ensemble des hypothèses qui définissent l'espace de recherche qu'un algorithme explore et le processus de recherche qu'il emploie. C'est lui qui distingue un arbre de décision (decision tree) d'un modèle de régression : chacun fait des présupposés différents sur la forme de la solution recherchée.

Mais le biais inductif encodé dans l'algorithme n'est que la partie visible. On biaise aussi le résultat d'un projet par une foule de décisions humaines : le choix de la cible, l'inclusion ou l'exclusion de variables descriptives, le traitement des valeurs manquantes, la normalisation, la représentation des variables continues, le type de modèle, le réglage des hyperparamètres, le protocole d'évaluation, les mesures de performance. Chacune de ces réponses introduit un biais spécifique. On est souvent contraint d'y répondre à l'estime — et c'est précisément ce qui réclame de la maturité.

Note

Le biais n'est pas l'ennemi : c'est la condition même de l'apprentissage. Un algorithme « sans biais » ne pourrait rien généraliser, car il n'aurait aucune raison de préférer une hypothèse à une autre. Toute la compétence consiste à choisir un biais adapté au domaine — c'est-à-dire un ensemble d'hypothèses qui se révèlent vraies pour les données qu'on traite.

CRISP-DM : structurer pour ne pas se noyer

Vue d'ensemble, la masse de questions à régler peut paraître écrasante. C'est pourquoi les auteurs recommandent vivement d'adopter un cycle de vie structuré, en l'occurrence CRISP-DM (Cross-Industry Standard Process for Data Mining), pour piloter un projet de bout en bout. Chaque phase répond à un sous-ensemble de questions ouvertes.

Phase CRISP-DM	Questions ouvertes typiques
Compréhension métier (business understanding)	Quel problème organisationnel veut-on traiter ? En quoi un modèle prédictif y répondrait-il ? A-t-on l'« aisance situationnelle » (situational fluency) ? L'organisation peut-elle exploiter la sortie du modèle ? Quelles données existent ?
Compréhension des données (data understanding)	Quel est le sujet de la prédiction ? Quels sont les concepts du domaine ? Quelle est la variable cible (target feature) ? Quelles variables descriptives (descriptive features) utiliser ?
Préparation des données (data preparation)	Y a-t-il des problèmes de qualité ? Comment gérer les valeurs manquantes ? Comment normaliser ? Quelles variables inclure ?
Modélisation (modeling)	Quels types de modèles employer ? Comment régler les paramètres ? Sous-apprentissage (underfitting) ou surapprentissage (overfitting) sont-ils survenus ?
Évaluation (evaluation)	Quel protocole d'évaluation suivre ? Quelles mesures de performance ? Le modèle est-il « apte à l'usage » (fit for purpose) ?
Déploiement (deployment)	Comment continuer à évaluer le modèle après déploiement ? Comment l'intégrer dans l'organisation ?

Deux rappels essentiels accompagnent ce tableau. Un projet d'analyse est itératif : les étapes tardives renvoient souvent vers les premières pour un nouveau cycle. Et surtout, sa finalité est de résoudre un problème réel — il faut garder ce cap plutôt que se laisser happer par les défis techniques, parfois grisants, de la construction de modèles.

Les quatre équations qui fondent tout

Le livre a structuré sa présentation autour de quatre approches de l'apprentissage, chacune adossée à une équation simple mais profonde. Les maîtriser, c'est tenir le socle mathématique d'une grande partie de la modélisation scientifique.

Information (entropie de Shannon)   H(t) = -Σ P(i) × log2 P(i)
Similarité  (distance euclidienne)  dist(a,b) = √( Σ (a_i - b_i)² )
Probabilité (théorème de Bayes)     P(t|d) = ( P(d|t) × P(t) ) ÷ P(d)
Erreur      (somme des carrés)      SSE = Σ ( cible_i - prédiction_i )²

À chacune correspond un algorithme phare étudié dans l'ouvrage : ID3 pour l'information, les k plus proches voisins (k nearest neighbor) pour la similarité, le Bayes naïf (naive Bayes) pour la probabilité, la régression linéaire multivariée par descente de gradient (gradient descent) pour l'erreur. Comprendre comment ces quatre équations s'incarnent dans ces quatre algorithmes constitue, selon les auteurs, une base solide pour une carrière entière en analyse prédictive.

Astuce

La taxonomie « information / similarité / probabilité / erreur » imite des approches humaines de l'apprentissage. Mais ce n'est pas la seule grille de lecture. D'autres distinctions — paramétrique contre non paramétrique, génératif contre discriminant — éclairent autrement le choix d'un modèle pour un scénario donné.

Paramétrique ou non paramétrique

Une première distinction transverse concerne la taille de la représentation du domaine. Dans un modèle paramétrique (parametric model), le nombre de paramètres est fixé par le nombre de variables, indépendamment du nombre d'instances : un Bayes naïf, un réseau bayésien (Bayesian network), une régression linéaire ou logistique en relèvent. Le nombre de poids d'une régression linéaire dépend uniquement du nombre de variables descriptives, pas de la taille du jeu d'entraînement.

Dans un modèle non paramétrique (non-parametric model), au contraire, le nombre de paramètres croît avec le nombre d'instances. Les modèles à plus proches voisins en sont l'exemple type : ajouter des points à l'espace des variables agrandit la représentation du domaine. Les arbres de décision le sont aussi — leur ramification et leur profondeur dépendent de la complexité du jeu de données, et reconstruire l'arbre sur des données enrichies donnerait sans doute un arbre très différent. Les machines à vecteurs de support (support vector machines, SVM) également, car elles conservent une partie des instances comme représentation.

La distinction n'est pas qu'académique. Les modèles paramétriques font des hypothèses plus fortes sur la distribution sous-jacente : une régression linéaire suppose une relation linéaire entre variables et cible. Les modèles non paramétriques sont plus flexibles — un 1-NN sait modéliser une frontière de décision (decision boundary) discontinue — mais peinent sur les grands jeux de données par leur coût en temps et en mémoire.

Critère	Modèle paramétrique	Modèle non paramétrique
Taille de la représentation	Fixée par le nombre de variables	Croît avec le nombre d'instances
Hypothèses sur la distribution	Fortes	Faibles, plus de flexibilité
Petit jeu de données	Souvent bon (les hypothèses, si justes, évitent le surapprentissage)	Risque de surapprentissage
Grand jeu, frontière complexe	Peut être trop rigide	Laisse les données guider directement
Exemples	Bayes naïf, régression, réseau bayésien	k-NN, arbre de décision, SVM

Sur un petit jeu, un modèle paramétrique performe souvent bien : ses hypothèses fortes, si elles sont correctes, l'aident à éviter le surapprentissage. À mesure que les données grossissent et que la frontière entre classes se complexifie, il devient préférable de laisser les données informer plus directement la prédiction. Les SVM sont un cas remarquable de modèle non paramétrique qui esquive en grande partie le mur du coût de calcul — d'où leur fréquente pertinence dans les domaines complexes riches en données.

Génératif ou discriminant

La seconde distinction majeure, pour les modèles de classification, oppose le génératif au discriminant. Un modèle est génératif (generative) s'il peut servir à générer des données aux mêmes caractéristiques que le jeu dont il est issu : pour cela, il doit apprendre la distribution des données de chaque classe. Les réseaux bayésiens en sont l'archétype (les méthodes de Monte-Carlo par chaînes de Markov exploitent justement cette capacité à générer des données approchant la distribution d'origine), et les k plus proches voisins le sont également puisqu'ils modélisent explicitement la distribution de chaque classe.

Un modèle discriminant (discriminative), lui, apprend la frontière entre classes plutôt que les caractéristiques de leurs distributions. Les SVM et les autres modèles de classification fondés sur l'erreur en relèvent : frontière dure dans certains cas, frontière « molle » prenant en compte la distance dans d'autres (comme la régression logistique). Les arbres de décision sont eux aussi discriminants — ils partitionnent récursivement l'espace des variables en régions, définissant une frontière par agrégation des régions voisines de même classe. Les ensembles par bagging et boosting le sont également.

Cette distinction n'est pas un simple jeu d'étiquettes : génératifs et discriminants apprennent des concepts différents. En notant d le vecteur des valeurs descriptives et tl un niveau de la cible :

Modèle GÉNÉRATIF
  1. apprend les densités conditionnelles de classe P(d|tl) et les a priori P(tl)
  2. applique le théorème de Bayes pour obtenir les a posteriori P(tl|d)
  3. applique une règle de décision sur ces a posteriori

Modèle DISCRIMINANT
  1. apprend directement l'a posteriori de classe P(tl|d) à partir des données
  2. applique une règle de décision sur ces a posteriori

L'enjeu est réel, car la densité conditionnelle P(d|tl) peut être bien plus complexe que l'a posteriori P(tl|d). Un modèle génératif tente donc d'apprendre une solution plus riche que nécessaire. Cette difficulté s'aggrave quand les variables sont nombreuses : à mesure que la dimensionnalité de d croît, il faut toujours plus de données pour bien estimer ces densités. Dans les domaines complexes, les modèles discriminants sont donc souvent plus précis.

Mais — c'est si fréquent en machine learning — le débat ne s'arrête pas là. Les modèles génératifs ont un biais plus élevé : ils font davantage d'hypothèses sur la forme de la distribution apprise (par exemple, le Bayes naïf encode des hypothèses d'indépendance entre variables). Cela peut sembler un handicap, mais lorsqu'on dispose d'une bonne connaissance préalable des relations d'indépendance du domaine, on peut encoder cette structure dans le modèle. Ce biais structurel l'aide alors à éviter le surapprentissage. Conséquence : sur un petit jeu de données avec de bonnes connaissances a priori, un modèle génératif peut surpasser un discriminant. À l'inverse, passé un certain seuil de volume de données, le biais imposé au génératif dépasse l'erreur du modèle entraîné, et le discriminant reprend l'avantage.

Modèle	Paramétrique / non paramétrique	Génératif / discriminant
k plus proches voisins	Non paramétrique	Génératif
Arbre de décision	Non paramétrique	Discriminant
Bagging / Boosting	Paramétrique*	Discriminant
Bayes naïf	Paramétrique	Génératif
Réseau bayésien	Paramétrique	Génératif
Régression linéaire	Paramétrique	Discriminant
Régression logistique	Paramétrique	Discriminant
SVM	Non paramétrique	Discriminant

*Bien que les modèles individuels d'un ensemble puissent être non paramétriques (des arbres, par exemple), l'ensemble lui-même est considéré paramétrique.

À retenir

Le choix entre génératif et discriminant est dépendant du contexte. Il influe non seulement sur la précision, mais aussi sur la gestion des données manquantes, des données non étiquetées et du prétraitement des variables. La seule attitude prudente est d'évaluer une gamme de modèles plutôt que de parier d'emblée sur un seul.

Le « No Free Lunch » : aucun champion universel

Chaque approche induit des modèles aux forces et faiblesses distinctes. Quand utiliser laquelle ? La première vérité à intégrer est qu'il n'existe aucune approche universellement supérieure — c'est le théorème du « repas gratuit » qui n'existe pas (No Free Lunch Theorem, Wolpert, 1996). Intuitivement, c'est logique : chaque algorithme encode un jeu d'hypothèses (son biais inductif), et des hypothèses pertinentes dans un domaine peuvent être inadaptées dans un autre.

On voit ces hypothèses se refléter dans la forme des frontières de décision qu'apprennent les algorithmes. Entraînés sur des jeux de données artificiels, ils dessinent des frontières caractéristiques.

Frontières de décision typiques (espace à 2 variables F1, F2) :

Arbre de décision         k-NN (k=3)            Régression logistique
  F2                        F2                    F2
  |  ___                    |   /  /             |        /
  | |   |__                 |  /  /              |      /
  | |      |                | /                 |    /
  | |   ___|                |/                  |  /
  |_|__|______ F1           |_______ F1          |/_______ F1
  marches                   contour               droite
  d'escalier                irrégulier            (séparation linéaire)

Les frontières des arbres ont une allure « en escalier » due au découpage par seuils sur les variables. Celles des k-NN sont nettement déchiquetées du fait de leur ancrage local. Et selon le jeu de données, un modèle représente mieux la frontière réelle qu'un autre : aucun n'est bon partout. Sur des données réelles, bien plus complexes que ces exemples, le choix doit être guidé par les priorités du projet et la nature des variables. La règle d'or : ne pas figer une seule approche en début de projet, mais en retenir plusieurs et expérimenter. Deux questions cadrent cette présélection — l'approche correspond-elle aux exigences du projet ? Est-elle adaptée au type de prédiction et aux variables disponibles ?

Faire correspondre l'approche au projet

Souvent, l'exigence première est de construire un modèle précis. La précision tient à la capacité d'un algorithme à capturer l'interaction entre variables descriptives et cible. Les évaluations empiriques de Caruana et collègues (2006, 2008), sur de nombreux domaines, montrent qu'en moyenne les ensembles et les SVM comptent parmi les modèles les plus précis. Mais, constat répété, dans certains domaines ces modèles puissants se révèlent médiocres, tandis que des modèles ailleurs faibles obtiennent les meilleurs résultats. Conclusion : aucune approche n'est universellement la meilleure, et l'expérimentation reste la voie la plus sûre vers un modèle précis.

Surtout, la précision n'est pas le seul critère. Pour réellement servir un problème métier, un modèle doit aussi répondre à trois exigences opérationnelles.

Exigence	Enjeu	Bons / mauvais profils
Vitesse de prédiction (prediction speed)	Combien de prédictions par seconde ?	Régression logistique très rapide (équation + seuil) ; k-NN très lent (comparaison à tout le jeu). Critique pour, par ex., la détection de fraude à la carte en temps réel.
Capacité de réentraînement (capacity for retraining)	Adapter le modèle en cas de dérive de concept (concept drift)	Facile pour Bayes naïf et k-NN ; quasi impossible à adapter pour les arbres et la régression — il faut tout réentraîner.
Interprétabilité (interpretability)	Expliquer et justifier les prédictions	Arbres et régression linéaire très interprétables ; SVM et ensembles quasi opaques (« boîtes noires », black box).

En synthèse, les ensembles, les SVM et les réseaux bayésiens sont, en général, plus puissants que les approches plus simples du livre. Mais ils sont aussi plus complexes, plus longs à entraîner, plus chargés en biais inductif et plus difficiles à interpréter. Et très souvent, ce sont ces facteurs opérationnels — vitesse, réentraînement, interprétabilité — qui pèsent plus lourd que la précision brute dans le choix final.

Attention

Beaucoup d'organisations refusent d'accepter une prédiction sans explication. Dans la banque, la santé ou le crédit, un modèle « boîte noire » très précis peut être tout simplement inutilisable parce qu'il est légalement ou éthiquement impossible de justifier ses décisions. La précision sans interprétabilité n'est parfois pas négociable — il faut le savoir avant de modéliser, pas après.

Faire correspondre l'approche aux données

Presque toute approche peut, moyennant adaptation, traiter des variables continues comme catégorielles. Mais certaines sont plus naturellement adaptées. Le premier critère est la nature de la cible. Pour une cible continue, les approches fondées sur l'erreur (régression) sont les plus naturelles ; l'information et la probabilité y sont les moins adaptées. Pour une cible catégorielle, l'information et la probabilité fonctionnent très bien ; les approches par l'erreur se compliquent dès que la cible dépasse deux niveaux.

Vient ensuite la nature des variables descriptives. Si elles sont toutes continues, la similarité est un bon choix, surtout avec une cible catégorielle (avec une cible continue, on préférera l'erreur). Si elles sont toutes catégorielles, l'information et la probabilité conviennent ; l'erreur l'est moins, car elle exige de convertir le catégoriel en variables binaires, ce qui gonfle la dimensionnalité. Quand variables continues et catégorielles se mêlent — le cas fréquent —, on s'oriente vers l'approche adaptée au type majoritaire.

Reste un péril : la malédiction de la dimensionnalité (curse of dimensionality). Beaucoup de variables réclament beaucoup de données. La sélection de variables (feature selection) est donc toujours recommandée, quel que soit le modèle. Mais certains y sont plus sensibles : la similarité souffre énormément de la haute dimensionnalité, tandis que les arbres de décision, dotés d'un mécanisme de sélection de variables intégré à leur induction, y résistent mieux.

Cible CONTINUE  ──────────► Erreur (régression)
Cible CATÉGORIELLE ───────► Information, Probabilité

Variables toutes CONTINUES ──► Similarité (cible catégorielle)
                                Erreur (cible continue)
Variables toutes CATÉGORIELLES ► Information, Probabilité
Variables MIXTES ──────────────► suivre le type majoritaire

Beaucoup de variables ──► attention à la malédiction de la dimensionnalité
                          (la Similarité y est la plus sensible ;
                           l'arbre y résiste grâce à sa sélection intégrée)

Piège courant

« Plus de données » ou « meilleur algorithme » ? Souvent, un jeu de données plus riche et mieux nettoyé fait davantage pour la précision qu'un changement d'algorithme. Mais ce n'est pas un absolu : sur un petit jeu avec de bonnes connaissances a priori, un modèle bien biaisé bat un modèle vorace en données. Le bon réflexe n'est pas de chercher l'algorithme magique, mais d'investir dans la qualité, la représentation et la sélection des variables.

Les vraies prochaines étapes

Puisque la modélisation est la part facile, l'essentiel de l'effort se joue ailleurs. Pour orienter un projet vers la meilleure solution, les auteurs insistent sur cinq leviers :

acquérir l'aisance situationnelle (situational fluency) pour dialoguer d'égal à égal avec les experts du domaine ;
explorer les données pour les comprendre correctement ;
nettoyer les données — un travail ingrat mais décisif ;
réfléchir longuement à la meilleure représentation des variables ;
concevoir soigneusement le protocole d'évaluation.

La connaissance du domaine irrigue chacun de ces points. C'est elle qui dit quelle cible a du sens, quelles variables sont plausiblement causales, quelles indépendances encoder dans un modèle génératif, quelles dérives de concept anticiper. Un excellent algorithme nourri d'une mauvaise compréhension du domaine produit un modèle techniquement correct mais métier-faux. L'originalité revendiquée de l'ouvrage est justement de présenter le machine learning en contexte : compréhension métier, exploration et préparation des données, études de cas — autant de sujets absents de bien des manuels purement algorithmiques.

Note

Le livre reconnaît ses propres limites : il a fait l'impasse sur l'apprentissage non supervisé, l'apprentissage par renforcement, l'apprentissage profond (deep learning), la classification multi-étiquettes et les modèles graphiques avancés. Il renvoie aux ouvrages de référence de Hastie, Bishop et Murphy. C'est le bon état d'esprit : ces fondamentaux ne sont pas une fin, mais un socle pour explorer seul la suite.

À retenir

L'apprentissage automatique est inductif : ses modèles ne sont jamais garantis corrects, et l'apprentissage exige un biais inductif. Choisir un biais adapté au domaine est le cœur du métier — d'où sa nature d'art autant que de science.
Un projet se pilote avec un cycle structuré et itératif comme CRISP-DM, en gardant le cap sur le problème réel plutôt que sur les défis techniques.
Les quatre familles reposent sur quatre équations — entropie (information), distance euclidienne (similarité), théorème de Bayes (probabilité), somme des carrés des erreurs (erreur) — et leurs algorithmes phares : ID3, k-NN, Bayes naïf, régression.
Deux grilles transverses complètent la taxonomie : paramétrique / non paramétrique (la taille de la représentation dépend-elle des instances ?) et génératif / discriminant (apprend-on la distribution des classes ou seulement leur frontière ?).
Le No Free Lunch Theorem garantit qu'aucune approche n'est universellement meilleure : on présélectionne plusieurs approches et on expérimente, en lisant la forme des frontières de décision qu'elles dessinent.
Le choix dépend autant du projet (vitesse, capacité de réentraînement, interprétabilité, souvent décisives avant même la précision) que des données (nature de la cible et des variables, malédiction de la dimensionnalité).
L'essentiel se joue avant et autour de la modélisation : aisance situationnelle, exploration, nettoyage, représentation des variables, protocole d'évaluation — le tout porté par la connaissance du domaine.