Résumé du livre

LLM Engineer's Handbook

Concevoir, entraîner et déployer des LLM en production

Paul Iusztin & Maxime Labonne · 2024

Le guide de bout en bout de l'ingénierie des LLM : architecture FTI, pipelines de données, RAG, fine-tuning (SFT, DPO), évaluation, optimisation de l'inférence, déploiement et LLMOps.

Commencer 11 chapitres · ~176 min de lecture

Sommaire

01 L'ingénierie des LLM & l'architecture FTI Ce qu'est un LLM Engineer, le projet fil rouge « LLM Twin », et l'architecture en trois pipelines (FTI) qui structure tout système ML en production. 15 min
02 La boîte à outils du LLM Engineer L'outillage MLOps et cloud qui rend un système LLM reproductible : orchestration, suivi d'expériences, registres de modèles et bases vectorielles. 15 min
03 L'ingénierie des données Le socle de tout système LLM : collecter, nettoyer et stocker les données via un pipeline ETL et un entrepôt, base du RAG et du fine-tuning. 15 min
04 Le pipeline de features RAG Transformer les données en connaissances interrogeables : chunking, embeddings, base vectorielle et indexation — le cœur du RAG. 19 min
05 Le fine-tuning supervisé (SFT) Spécialiser un modèle pré-entraîné sur vos données : jeux d'instructions, LoRA/QLoRA et la boucle d'entraînement. 15 min
06 L'alignement par préférences (DPO) Aller au-delà du SFT : aligner le modèle sur des préférences humaines avec des données choisi/rejeté et l'optimisation directe (DPO). 14 min
07 L'évaluation des LLM Mesurer ce qui compte : benchmarks, LLM-as-a-judge, évaluation du RAG, et les pièges de l'évaluation des modèles génératifs. 17 min
08 L'optimisation de l'inférence Servir un LLM vite et à moindre coût : quantification, cache KV, décodage spéculatif et parallélisme — les leviers latence/débit/mémoire. 16 min
09 Le pipeline d'inférence RAG Le RAG avancé à la requête : réécriture de requête, self-query, recherche hybride et reranking pour des réponses pertinentes et sourcées. 15 min
10 Le déploiement du pipeline d'inférence Mettre le modèle entre les mains des utilisateurs : déploiement online/temps réel, asynchrone et batch, API REST, conteneurs et autoscaling. 16 min
11 MLOps & LLMOps Industrialiser le cycle de vie : de DevOps à MLOps puis LLMOps — CI/CD/CT, monitoring, observabilité des prompts et amélioration continue. 19 min