Comment fonctionnent les LLM ? L’analogie de l’apprenti bibliothécaire universel

Imaginez un nouvel arrivant à la Bibliothèque nationale. On lui pose une première question : « Quelle est la capitale du Pérou ? ». Il sort une réponse en deux secondes : Lima. Une heure plus tard, on lui demande de résumer la pensée de Spinoza, puis de rédiger un email commercial, puis de relire un contrat juridique. Il fait tout, vite, à peu près correctement. Personne ne l’a jamais vu ouvrir un livre.

Bienvenue dans le monde des grands modèles de langage.

Sommaire de l’article

Définition à 3 niveaux : qu’est-ce qu’un LLM ?
L’analogie maîtresse : Léo, l’apprenti bibliothécaire universel
Décryptage : 11 concepts clés des LLM, traduits
Ce que ça change pour vous, manager ou étudiant
FAQ débutants : 5 questions naïves (mais essentielles)
2 articles fondateurs à connaître
3 prompts pour apprendre par la pratique
Pour aller plus loin sur le blog

Qu’est-ce qu’un LLM ? Trois définitions emboîtées

Avant d’entrer dans la mécanique, posons trois définitions de plus en plus précises. Chacune dit la même chose. Aucune ne ment. Elles s’adressent à trois publics différents.

Niveau 1 — pour un collégien

Un LLM, c’est un programme qui a lu énormément de textes et qui a appris à deviner le mot suivant dans une phrase. Quand on lui parle, il continue la phrase de la manière qui lui semble la plus probable.

Niveau 2 — pour un manager

Un LLM (Large Language Model) est un système d’intelligence artificielle entraîné sur d’immenses volumes de textes pour produire du langage. Il ne « comprend » pas comme un humain : il modélise statistiquement la probabilité d’enchaînement entre fragments de texte. Sa polyvalence vient de l’échelle des données et du nombre de paramètres qui le composent.

Niveau 3 — formulation académique

Un LLM est un réseau de neurones profond, généralement de type Transformer, entraîné par apprentissage auto-supervisé sur des corpus textuels massifs pour modéliser la distribution conditionnelle des séquences de tokens. Il est ensuite affiné par apprentissage supervisé puis renforcé par retour humain (RLHF) pour aligner ses sorties avec des préférences cibles.

L’analogie maîtresse : Léo, l’apprenti bibliothécaire universel

Imaginons un personnage : Léo. Léo est un apprenti bibliothécaire. Pas un bibliothécaire ordinaire. À la fin de sa formation, Léo sera capable de répondre à n’importe quelle question, dans n’importe quel domaine, avec une voix calme et un débit fluide. Pour comprendre les LLM, il suffit de suivre son parcours.

Étape 1 — Le cerveau de Léo, avant qu’il n’apprenne quoi que ce soit

Léo arrive le premier jour avec un cerveau vide. Ce cerveau est une vaste maille de petites cellules connectées entre elles : ses neurones. Au départ, ces connexions n’ont aucune valeur particulière, elles sont là, posées, comme un standard téléphonique sans abonnés. Dans un LLM, ces connexions s’appellent des paramètres. Un modèle moderne en compte des dizaines, voire des centaines de milliards. Chacun n’est qu’un petit nombre. Aucun ne « contient » de connaissance à lui seul. Tout se joue dans la coordination du réseau.

Étape 2 — La méthode d’apprentissage de Léo

On installe Léo devant la totalité de la bibliothèque. On lui fait lire les textes selon un jeu très simple : on lui cache un mot, et on lui demande de le deviner. Sa réponse est comparée au mot réel. Quand il se trompe — au début, il se trompe presque tout le temps —, on ajuste très légèrement ses connexions internes pour qu’au prochain essai, sa réponse soit un peu meilleure.

Ce jeu se répète des milliards de fois. Cette manière d’apprendre — sans qu’aucun professeur ne lui donne explicitement la « bonne » réponse, juste en lui faisant deviner ce qui manque — s’appelle l’apprentissage auto-supervisé. Petit à petit, Léo n’apprend plus seulement à prédire le mot suivant : il intériorise des régularités du langage, des associations d’idées, des structures logiques, des formules juridiques, des tournures littéraires, des conventions scientifiques.

Étape 3 — Ce qui rend Léo différent des bibliothécaires d’avant

Avant Léo, les bibliothécaires lisaient les phrases mot après mot, dans l’ordre, comme on lit une partition. C’était lent et, surtout, ils oubliaient le début de la phrase quand ils arrivaient à la fin. Léo, lui, regarde toute la phrase d’un coup. Il sait immédiatement que dans « la banque au bord de la rivière », le mot « banque » désigne une rive et non un établissement financier — parce qu’il « pèse » mentalement chacun des autres mots de la phrase pour orienter son interprétation.

Cette capacité à pondérer simultanément tous les mots d’un contexte s’appelle le mécanisme d’attention. C’est lui qui équipe l’architecture appelée Transformer, introduite en 2017 et qui a tout changé. Avant le Transformer, on avait des bibliothécaires laborieux. Après lui, on a des bibliothécaires panoramiques.

Étape 4 — L’organisation mentale de Léo

Comment Léo « range » les concepts dans sa tête ? Pas par ordre alphabétique. Il les place dans un espace à plusieurs centaines de dimensions, où la proximité géographique correspond à la proximité de sens. Dans cet espace, roi est près de reine, qui est près de monarque, et l’écart entre roi et reine ressemble à l’écart entre homme et femme. Cette représentation s’appelle un embedding. Pour Léo, ce n’est pas un dictionnaire, c’est une carte. Quand vous lui posez une question, il s’oriente sur cette carte.

Étape 5 — La spécialisation et les bonnes manières

À la sortie de cette phase d’auto-apprentissage massive — qu’on appelle le pré-entraînement —, Léo sait beaucoup, mais il est encore brut. Il peut continuer une phrase indélicate, dire des choses fausses avec aplomb, refuser de structurer ses réponses. Deux étapes supplémentaires l’attendent.

D’abord, on lui montre des milliers d’exemples d’échanges humains réussis : voici une question, voici la bonne manière d’y répondre. C’est l’apprentissage supervisé fin (fine-tuning). Léo apprend la forme et le ton attendus.

Ensuite, on lui fait produire plusieurs réponses possibles à une même question, et un humain — ou une IA imitant un humain — classe ces réponses de la meilleure à la pire. Le modèle apprend à viser ce que les évaluateurs préfèrent. Cette étape, dite RLHF (apprentissage par renforcement à partir de retours humains), est ce qui donne aux LLM modernes leur politesse, leur prudence, leurs garde-fous. Plus largement, on parle d’alignement : faire en sorte que Léo produise non pas le mot le plus probable au sens statistique, mais la réponse la plus utile, honnête et inoffensive au sens humain.

Là où l’analogie s’arrête

Léo est utile mais il est un peu trompeur. Trois différences majeures séparent un vrai bibliothécaire d’un LLM. Léo, le vrai, sait quand il ne sait pas — un LLM continue à parler avec la même assurance dans tous les cas. Léo se souvient d’une discussion d’il y a un an — un LLM oublie tout dès que sa fenêtre de contexte est dépassée, et n’a aucune mémoire entre deux conversations sauf si on lui en construit une. Enfin, Léo peut aller vérifier une information à la source, alors qu’un LLM seul ne fait que recombiner ce qu’il a intériorisé pendant son entraînement.

Tenons cette image en tête, et entrons dans le détail.

12 concepts clés des LLM, traduits

Voici la mécanique d’un LLM, concept par concept, avec sa traduction dans l’analogie de Léo et sa réalité technique exprimée sans jargon.

Réseau de neurones artificiel

LéoLe cerveau de Léo : des milliards de petites cellules reliées entre elles, dont chaque connexion peut s’ajuster.

RéalitéUne suite de couches mathématiques composées d’unités simples qui s’envoient des nombres pondérés. Inspiré, très librement, du fonctionnement neuronal biologique.

Deep learning

LéoUn cerveau qui n’a pas une seule étagère mais des dizaines d’étages : chaque étage extrait un niveau d’abstraction plus élevé que le précédent.

RéalitéApprentissage automatique avec des réseaux à de très nombreuses couches successives. La profondeur permet de capturer des structures abstraites.

NLP (traitement automatique du langage)

LéoLa discipline qui s’occupe d’apprendre à Léo le langage humain : comprendre, traduire, résumer, générer.

RéalitéSous-domaine de l’IA qui traite le langage naturel : analyse syntaxique, sémantique, traduction, génération. Les LLM en sont aujourd’hui l’outil dominant.

Transformer

LéoLa méthode d’apprentissage qui permet à Léo de regarder toute la phrase d’un coup au lieu de la lire mot après mot.

RéalitéArchitecture de réseau de neurones, introduite en 2017, qui traite les séquences en parallèle grâce au mécanisme d’attention. Base de tous les LLM modernes.

Attention

LéoLe réflexe de Léo qui lui fait surligner les mots importants pour comprendre les autres mots.

RéalitéMécanisme qui calcule, pour chaque token, un poids relatif vis-à-vis de tous les autres tokens du contexte, pour orienter la prédiction.

Embedding

LéoLa carte mentale de Léo où les concepts proches en sens sont voisins en espace, indépendamment de leur orthographe.

RéalitéReprésentation d’un mot, d’une phrase ou d’un document sous forme de vecteur de nombres. La distance entre vecteurs reflète une distance sémantique.

Apprentissage supervisé / non supervisé / par renforcement

LéoTrois manières d’enseigner à Léo : avec un prof qui corrige (supervisé), en autonomie face aux livres (non supervisé), par essai-erreur récompensé (renforcement).

RéalitéTrois familles d’apprentissage automatique. Les LLM combinent les trois : auto-supervisé pour le pré-entraînement, supervisé pour le fine-tuning, renforcement pour l’alignement.

Optimisation et descente de gradient

LéoÀ chaque erreur de Léo, on ajuste très légèrement ses connexions dans la direction qui réduira l’erreur la prochaine fois. Pas à pas, comme on descend une colline brumeuse en suivant la pente.

RéalitéAlgorithme qui modifie les paramètres du réseau dans le sens opposé au gradient de la fonction de perte, pour minimiser l’erreur. Cœur mathématique de l’apprentissage profond.

Fine-tuning

LéoL’onboarding de Léo dans un métier précis : après son cursus généraliste, on le forme à parler comme un avocat, un médecin, un community manager.

RéalitéRé-entraînement d’un modèle pré-entraîné sur un jeu de données spécialisé. Permet d’adapter un LLM généraliste à un domaine, un style, une tâche.

Alignement

LéoApprendre à Léo non seulement à parler juste, mais à parler bien : être utile, ne pas mentir avec assurance, ne pas suivre une consigne nuisible.

RéalitéEnsemble de techniques (RLHF, RLAIF, Constitutional AI) qui ajustent les sorties d’un modèle aux préférences humaines, aux normes éthiques, aux politiques d’usage.

Biais

LéoLes préjugés involontaires que Léo a hérités de la bibliothèque : si tous les livres sur le management ont été écrits par des hommes, il associera spontanément le mot « dirigeant » à un masculin.

RéalitéDistorsions systématiques dans les sorties d’un modèle, héritées des données d’entraînement, des choix d’architecture ou des étapes d’alignement. Inévitables, mais mesurables et atténuables.

Multimodalité

LéoLéo apprend à ne plus se contenter de lire : il regarde aussi des images, écoute des sons, et organise tout cela sur la même carte mentale.

RéalitéCapacité d’un modèle à traiter et combiner plusieurs modalités (texte, image, audio, vidéo) dans un même espace de représentation. C’est la direction dominante depuis 2024.

Ce que ça change pour vous, manager ou étudiant

Comprendre la mécanique de Léo n’est pas un savoir décoratif. Cela change la manière dont vous formulez vos demandes, dont vous évaluez ses réponses, et dont vous décidez quand l’utiliser ou non.

1. Vous savez pourquoi le modèle « invente » parfois. Léo a été récompensé pour produire des réponses fluides, pas pour signaler son ignorance. Quand il ne connaît pas, il continue à parler — c’est ce qu’on appelle une hallucination. Conséquence pratique : vérifiez systématiquement les chiffres, les noms propres et les citations qu’il vous donne, surtout sur des sujets de niche.

2. Vous comprenez pourquoi le contexte est tout. Léo n’a aucune mémoire entre deux conversations, sauf si l’application qui l’héberge en construit une. Tout ce qui compte pour la qualité de sa réponse doit tenir dans la fenêtre que vous lui donnez : le prompt, les documents joints, l’historique récent. Soyez explicite sur l’objectif, le destinataire, le format, le ton.

3. Vous identifiez les biais avant qu’ils ne deviennent des problèmes. Si vous l’utilisez pour rédiger des fiches de poste, des évaluations, des descriptions de candidats, les biais hérités de ses données peuvent reproduire des stéréotypes — de genre, d’âge, d’origine. Une politique simple : faites-lui produire une version, puis demandez-lui d’identifier ses propres formulations potentiellement biaisées et de proposer des alternatives.

4. Vous choisissez le bon outil pour le bon usage. Pour une tâche très spécialisée et répétée (ex. : classer des verbatim clients selon une typologie maison), un modèle généraliste avec un prompt soigné est rarement la solution la plus efficace. Un modèle plus petit affiné sur vos données — ce qu’on appelle un fine-tuning, ou des alternatives plus légères comme LoRA — sera souvent plus rapide, moins cher et plus précis.

5. Vous anticipez l’arrivée du multimodal dans vos métiers. Les LLM ne sont déjà plus seulement « de langage » : ils analysent vos captures d’écran, lisent vos schémas, écoutent vos enregistrements. Pour un manager marketing, cela ouvre des cas d’usage concrets : audits de visuels publicitaires, analyse de contenu UGC, production multilingue à partir d’une seule maquette. Apprenez à formuler des demandes qui combinent texte et image — c’est déjà une compétence professionnelle distinctive.

FAQ : 5 questions naïves (mais essentielles)

Mais alors, un LLM, ça « comprend » ce qu’il dit ?▼

Non, pas au sens où vous comprenez cette phrase. Un LLM modélise des régularités statistiques entre fragments de texte. Il produit du sens parce que les humains qui ont écrit les textes d’entraînement en produisaient. C’est un débat ouvert chez les chercheurs : certains parlent de « compréhension fonctionnelle » (le modèle se comporte comme s’il comprenait), d’autres rappellent qu’il n’a ni intention, ni perception, ni expérience. Pratiquement : traitez ses sorties comme un brouillon intelligent à relire.

Pourquoi les LLM sont-ils devenus si bons d’un coup, vers 2022-2023 ?▼

Trois facteurs combinés. L’architecture Transformer (2017) a permis d’entraîner sur des séquences plus longues en parallèle. La mise à l’échelle (plus de paramètres, plus de données, plus de calcul) a fait émerger des capacités qui n’existaient pas dans les modèles plus petits. Et l’alignement par RLHF a transformé un moteur de complétion brut en assistant conversationnel utilisable par n’importe qui. ChatGPT, fin 2022, a été le moment où ces trois éléments ont rencontré le grand public.

Est-ce que mes données vont entraîner le modèle si je les colle dans un prompt ?▼

Cela dépend du fournisseur et du paramétrage. Sur les versions grand public gratuites, certaines plateformes utilisent par défaut les conversations pour améliorer leurs modèles, sauf option à décocher. Sur les versions entreprise et les API, le standard est l’inverse : les données ne servent pas à l’entraînement. Pour des informations sensibles, lisez la politique du service avant de coller. La question n’est pas théorique pour les enseignants, les soignants, les juristes.

Pourquoi deux modèles donnent-ils des réponses différentes à la même question ?▼

Plusieurs raisons. Les jeux de données d’entraînement diffèrent. Les architectures internes ne sont pas identiques. Les phases d’alignement reflètent les choix éditoriaux et éthiques de chaque éditeur. Et un même modèle, à un même prompt, peut produire des réponses légèrement différentes selon la « température » de génération — un paramètre qui dose l’aléatoire. Comparer deux modèles sur une tâche réelle reste la meilleure méthode de choix.

Plus c’est gros, mieux c’est ? Faut-il toujours préférer un modèle de 400 milliards à un de 8 milliards ?▼

Non, et c’est l’une des leçons les plus utiles de ces dernières années. Les très grands modèles excellent dans le raisonnement complexe, la rédaction longue, la compréhension de contextes étendus. Mais sur de nombreuses tâches d’entreprise — classification, extraction, reformulation —, des modèles de taille moyenne, voire petits et spécialisés par fine-tuning, sont aussi performants, beaucoup plus rapides et beaucoup moins coûteux. Le bon réflexe est : commencez petit, montez en taille seulement si la qualité l’exige.

2 articles fondateurs à connaître

Les LLM contemporains reposent sur une généalogie scientifique qu’il vaut la peine de connaître. Deux papiers, à eux seuls, suffisent à raconter cette histoire.

Article fondateur 1 — vérifié ✅

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.

Contexte. Publié à NeurIPS 2017 par une équipe de Google Brain et Google Research, dans une période où la traduction automatique reposait essentiellement sur des réseaux récurrents lents et difficiles à paralléliser.

Idée centrale. Les auteurs proposent une architecture qui repose uniquement sur le mécanisme d’attention, en abandonnant la lecture séquentielle. Tous les mots d’une séquence sont traités en parallèle, et chacun « regarde » tous les autres pour ajuster sa représentation. Le modèle s’appelle le Transformer.

Pourquoi c’est important. Sans le Transformer, pas de GPT, pas de Claude, pas de Gemini, pas de BERT. Toute la génération actuelle de LLM en descend directement. Lire l’article sur arXiv.

Article fondateur 2 — vérifié ✅

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., et al. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33.

Contexte. Publié à NeurIPS 2020 par OpenAI, alors que les modèles précédents nécessitaient un fine-tuning spécifique pour chaque tâche.

Idée centrale. Les auteurs entraînent GPT-3, un Transformer décodeur de 175 milliards de paramètres, et démontrent qu’avec une simple description en langage naturel et quelques exemples placés dans le prompt, le modèle peut accomplir une grande variété de tâches sans fine-tuning. C’est la naissance du « few-shot prompting ».

Pourquoi c’est important. Cet article démontre une propriété qui n’avait rien d’évident a priori : la mise à l’échelle fait émerger des capacités. Il ouvre la voie à l’usage généraliste des LLM tels que vous les utilisez aujourd’hui dans ChatGPT, Claude ou Gemini. Lire l’article sur NeurIPS Proceedings.

3 prompts pour apprendre par la pratique

Comprendre les LLM en lisant un article, c’est une chose. Les comprendre en les utilisant, c’en est une autre. Voici trois exercices à faire avec ChatGPT, Claude ou Gemini.

Explique-moi avec une analogie simple, accessible à un lycéen, la différence entre apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement. Donne un exemple concret pour chacun, en dehors du domaine de l’IA.

🎯 Objectif : tester la capacité du modèle à vulgariser. 📚 Ce qu’on apprend : trois grandes familles d’apprentissage automatique, et comment les LLM les combinent.

Voici une fiche de poste pour un poste de directeur commercial. Identifie les 5 formulations les plus susceptibles de contenir un biais (de genre, d’âge, d’origine) et propose pour chacune une reformulation neutre. Explique pourquoi la formulation initiale est problématique.

🎯 Objectif : faire travailler le modèle sur la détection de ses propres travers. 📚 Ce qu’on apprend : la nature des biais hérités des données d’entraînement, et l’usage du LLM comme outil critique sur lui-même.

Je dirige une équipe marketing de 8 personnes. Je veux décider si nous devons utiliser un LLM généraliste (type ChatGPT) ou faire fine-tuner un modèle plus petit sur nos contenus internes pour la rédaction de fiches produits. Aide-moi à structurer ma décision : 5 critères à évaluer, et pour chaque critère, ce qui penche d’un côté ou de l’autre.

🎯 Objectif : traduire une compréhension conceptuelle en décision opérationnelle. 📚 Ce qu’on apprend : à arbitrer entre généraliste et spécialisé, en intégrant coût, qualité, confidentialité, vélocité.

Pour aller plus loin sur le blog

Cet article fait partie d’une série pédagogique consacrée au fonctionnement de l’IA. Chaque concept abordé ici a son propre billet, plus approfondi, dans la rubrique Comprendre l’IA.