Comment les IA apprennent : supervisé, non supervisé, renforcement (comme une langue étrangère)

Exercices et prompts à la fin de l’article

Imaginez trois personnes qui veulent apprendre l’italien. La première s’inscrit à l’Institut culturel, cahier à la main, prof qui corrige chaque phrase. La deuxième part vivre six mois à Rome sans cours, se baigne dans la langue, écoute, lit, regarde la télé. La troisième tente directement de commander un café, observe si on la comprend ou non, ajuste. Ces trois parcours décrivent, étonnamment bien, les trois grandes façons dont une intelligence artificielle apprend.

Définition à trois niveaux

Niveau 1 — Tout public

Les IA apprennent de trois manières : en étant corrigées par un professeur, en explorant seules des masses de données, ou en étant récompensées quand elles réussissent.

Niveau 2 — Manager / étudiant

Les algorithmes de machine learning se classent en trois grandes familles selon le type de signal qu’ils reçoivent pendant leur entraînement : des réponses attendues, aucune réponse, ou une récompense différée.

Niveau 3 — Académique

L’apprentissage automatique regroupe trois paradigmes canoniques — supervisé, non supervisé et par renforcement — définis par la structure du signal d’apprentissage et la nature du retour fourni à l’algorithme.

L’analogie-maîtresse : trois manières d’apprendre une langue étrangère

Pour saisir ce qui distingue ces trois familles, imaginons la même personne — vous — qui veut apprendre l’italien. Trois stratégies s’offrent à vous, et chacune correspond à l’une des grandes familles de l’apprentissage automatique.

Stratégie 1 — L’école de langue

Vous vous inscrivez à un cours. Un enseignant vous tend un manuel : chaque exercice est associé à sa correction. Vous écrivez « Io sono stanco », et quelqu’un vous dit si c’est juste ou non. Au bout de milliers de phrases tentées et corrigées, vous avez intériorisé une intuition de ce qui sonne italien et de ce qui ne sonne pas. Vous ne récitez pas les règles : vous avez développé un flair statistique. C’est l’apprentissage supervisé. On fournit à l’algorithme des milliers d’exemples accompagnés de la bonne réponse (cette image est un chat, celle-ci un chien), et il apprend à reproduire la bonne réponse sur des exemples inédits.

Stratégie 2 — L’immersion sans cours

Vous partez vivre à Rome six mois, sans école. Personne ne corrige vos phrases — d’ailleurs vous n’en formez pas encore. Vous écoutez, vous lisez, vous regardez la télévision. Peu à peu, des structures émergent sans que personne ne vous les nomme : vous percevez que certains mots se terminent souvent par -zione, que certaines intonations signalent une question, que certains regroupements de mots reviennent toujours ensemble. C’est l’apprentissage non supervisé. L’algorithme reçoit une masse de données brutes sans étiquette et en fait émerger une structure : regroupements, régularités, anomalies. C’est ainsi qu’un outil marketing découvre des segments de clientèle qu’aucun chef de produit n’avait imaginés.

Stratégie 3 — Le bar à essais

Vous entrez dans un café et tentez : « Un caffè, per favore. » Le barman vous sert. Succès. Plus tard : « Vorrei una sfogliatella » — regard perplexe, il ne comprend pas. Échec. Personne ne vous explique précisément pourquoi : vous recevez juste un signal global — ça marche, ça ne marche pas. Vous ajustez vos tentatives suivantes. C’est l’apprentissage par renforcement. L’algorithme agit dans un environnement, reçoit une récompense positive ou négative, et apprend à maximiser cette récompense au fil du temps. C’est ainsi qu’AlphaGo a appris le go, et c’est ainsi que ChatGPT a été affiné pour paraître poli et utile.

Les limites de cette image. Celui qui apprend une langue ressent la gêne de se tromper, la fierté d’être compris, la fatigue du soir. Un algorithme, non. Il ne « comprend » pas ce qu’il manipule : il ajuste des paramètres mathématiques pour optimiser une fonction. Par ailleurs, les trois stratégies sont rarement séparées en pratique : les IA modernes en combinent plusieurs, comme un apprenant qui alternerait cours, immersion et conversations.

Déconstruction : les cinq familles que vous rencontrerez

Les trois stratégies précédentes sont les fondamentaux. Deux variantes modernes méritent d’être connues d’un manager, parce qu’elles nourrissent la plupart des IA que vous utilisez au quotidien.

Supervisé

Dans notre analogie : Le cours de langue avec prof qui corrige

Usage réel : Reconnaissance d’images, scoring de crédit, détection de spam

Non supervisé

Dans notre analogie : L’immersion sans cours dans un pays étranger

Usage réel : Segmentation client, détection de fraudes, exploration de bases

Par renforcement

Dans notre analogie : Commander un café, observer la réaction

Usage réel : AlphaGo, robotique, affinage de ChatGPT (RLHF)

Auto-supervisé

Dans notre analogie : Les exercices à trous : on cache un mot et on tente de le deviner

Usage réel : Pré-entraînement des LLM (ChatGPT, Claude, Gemini)

Par transfert

Dans notre analogie : Un hispanophone qui apprend l’italien : 70 % lui sont déjà familiers

Usage réel : Fine-tuning d’un modèle généraliste sur votre secteur

Une précision importante sur les LLM. Un modèle comme ChatGPT ou Claude n’est pas issu d’une seule méthode. Il est d’abord pré-entraîné par apprentissage auto-supervisé sur des milliards de textes — il joue, si l’on veut, à un gigantesque texte à trous. Il est ensuite affiné par apprentissage supervisé sur des exemples rédigés par des humains. Il est enfin poli par apprentissage par renforcement à partir de retours humains (le fameux RLHF). Trois stratégies, un seul apprenant.

Ce que ça change pour vous

Ces distinctions ne sont pas théoriques. Elles ont des conséquences concrètes quand vous pilotez ou commanditez un projet IA dans votre organisation.

1. Le supervisé coûte cher en amont. Qui va étiqueter vos milliers d’exemples ? L’annotation humaine est souvent le poste budgétaire caché d’un projet de classification — et la qualité des étiquettes détermine tout le reste.

2. Le non supervisé révèle ce que vous ignoriez — pour le meilleur et pour le pire. Il peut produire des segments client qui n’ont aucun sens métier. Prévoyez du temps humain pour interpréter et filtrer les regroupements.

3. Le renforcement demande un environnement de test. Un agent qui « apprend en faisant » ne peut pas apprendre directement sur vos vrais clients : il lui faut une simulation ou un sandbox pour éviter que ses erreurs d’apprentissage ne coûtent cher.

4. Votre fournisseur vous parle de fine-tuning ? C’est de l’apprentissage par transfert. Utile, souvent suffisant, rarement miraculeux. Demandez toujours sur quel corpus d’adaptation il a été réalisé — et surtout qui a produit ce corpus.

5. Trois questions à poser à tout consultant IA. Quel type d’apprentissage utilisez-vous ? Qui produit les étiquettes ou les signaux de récompense ? Comment évaluez-vous les résultats sur un jeu de données que le modèle n’a jamais vu ?

FAQ débutants

Une IA peut-elle apprendre avec les trois méthodes à la fois ?▼

Oui, c’est même la norme pour les IA modernes. ChatGPT et Claude combinent les trois de manière séquentielle : auto-supervisé d’abord, supervisé ensuite, puis renforcement pour l’alignement final. On parle alors de pipelines d’entraînement, pas de méthode unique.

Pourquoi dit-on que ChatGPT est lié au renforcement, et pas juste au supervisé ?▼

Parce que la dernière étape d’entraînement — celle qui rend le modèle poli, utile et conforme aux consignes — utilise l’apprentissage par renforcement à partir de retours humains (RLHF). Des annotateurs classent les réponses du modèle de la meilleure à la pire, et le modèle est ajusté pour privilégier celles qui seraient jugées « meilleures » par ces humains.

Le non supervisé est-il plus « intelligent » puisqu’il apprend seul ?▼

Non — ce n’est pas une question d’intelligence mais de tâche. Le non supervisé est adapté aux cas où vous n’avez pas d’étiquettes. Il est puissant pour explorer, pauvre pour prédire précisément. Un algorithme non supervisé ne sait pas qu’il « range bien » : il range, c’est tout.

Qu’est-ce que le RLHF exactement ?▼

Reinforcement Learning from Human Feedback : apprentissage par renforcement à partir de retours humains. Plutôt qu’une récompense automatique (comme un score de jeu), des humains comparent des réponses du modèle et indiquent lesquelles sont meilleures. Le modèle apprend à produire des sorties qui seraient préférées par ces humains. C’est la technique qui sépare un modèle brut d’un assistant utilisable au quotidien.

Une IA apprend-elle encore après sa mise en ligne ?▼

En général, non. La plupart des modèles commerciaux sont « figés » à leur mise en production : ils ne modifient plus leurs paramètres au fil de vos conversations. L’impression qu’ils « apprennent » vient soit de la mémoire conversationnelle (un mécanisme séparé), soit d’un affinage périodique piloté par l’éditeur, pas par l’utilisateur final.

Deux œuvres fondatrices

Samuel, A. L. (1959). Some Studies in Machine Learning Using the Game of Checkers ✅

IBM Journal of Research and Development, 3(3), 210–229.

Contexte. Au début des années 1950, Arthur Samuel, ingénieur chez IBM, développe un programme capable de jouer au jeu de dames. L’article de 1959 synthétise près d’une décennie d’expériences et forge au passage l’expression machine learning.

L’idée centrale. Un programme peut apprendre à mieux jouer que celui qui l’a écrit, simplement en jouant contre lui-même et en ajustant ses évaluations au fil des parties. Autrement dit, la performance n’a pas besoin d’être codée : elle peut être apprise à partir d’expérience.

Pourquoi cela a changé le domaine. Première démonstration convaincante qu’un programme peut progresser par lui-même. Les deux procédures décrites préfigurent à la fois l’apprentissage supervisé (évaluation de positions à partir d’exemples) et l’apprentissage par renforcement (jeu contre soi-même avec signal de victoire).

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2^e éd.) ✅

MIT Press.

Contexte. Publié une première fois en 1998, refondé en 2018, ce manuel est devenu la référence mondiale de l’apprentissage par renforcement (plus de 75 000 citations). Ses deux auteurs ont reçu le Prix Turing 2024 (annoncé en mars 2025) pour leurs contributions fondatrices au domaine.

L’idée centrale. Apprendre, ce n’est pas seulement classer des exemples. C’est aussi agir dans un environnement, recevoir des récompenses parfois tardives, et ajuster son comportement pour maximiser la somme des récompenses à long terme. Le livre formalise les trois ingrédients indispensables : un agent, un environnement, une fonction de récompense.

Pourquoi cela a changé le domaine. Sans ce cadre conceptuel, ni AlphaGo ni le RLHF qui polit ChatGPT n’auraient été pensables. La thèse de Sutton, « The Bitter Lesson », est devenue une boussole du secteur : à long terme, les méthodes génériques qui exploitent le calcul massif l’emportent sur celles qui encodent la connaissance humaine en dur.

Trois prompts pour apprendre

À tester dans ChatGPT, Claude, Gemini ou Mistral. Ces prompts sont conçus pour des débutants : aucun outil technique, aucune configuration préalable.

Explique-moi les trois grands types d’apprentissage en IA (supervisé, non supervisé, renforcement) en utilisant une analogie de ton choix, autre que la cuisine ou la langue étrangère. Prends 200 mots maximum.

🎯 Objectif : explorer le concept par une analogie différente. | 📚 Ce qu’on apprend : la souplesse d’une bonne analogie, et la capacité du LLM à reformuler un concept sous des angles variés.

Je veux tester ma compréhension. Je te donne un cas : « Une banque utilise des millions d’historiques de prêts pour prédire si un nouveau client sera solvable. » De quel type d’apprentissage s’agit-il, et pourquoi ? Réponds en trois phrases.

🎯 Objectif : vérifier qu’on a bien compris la distinction. | 📚 Ce qu’on apprend : associer un cas d’usage à une famille, en identifiant la nature du signal d’entraînement.

Je dirige un service client et je veux automatiser le tri des réclamations. Quel type d’apprentissage serait le plus adapté si (a) je dispose d’un historique de réclamations déjà catégorisées, (b) je n’ai aucune catégorisation préalable ? Justifie chaque choix.

🎯 Objectif : transférer le concept à un cas de management concret. | 📚 Ce qu’on apprend : le choix du type d’apprentissage dépend moins du secteur que de la nature des données dont on dispose.

Note méthodologique. Cet article a été rédigé avec l’assistance de Claude (Anthropic) selon un gabarit pédagogique conçu et tenu à jour par l’autrice. Les deux œuvres fondatrices citées ont été vérifiées sur sources primaires (IBM Journal, MIT Press, annonce ACM du Prix Turing 2024). L’analogie de la langue étrangère est originale et filée à dessein sur l’ensemble du billet.