Imaginez trois personnes qui veulent apprendre l’italien. La première s’inscrit à l’Institut culturel, cahier à la main, prof qui corrige chaque phrase. La deuxième part vivre six mois à Rome sans cours, se baigne dans la langue, écoute, lit, regarde la télé. La troisième tente directement de commander un café, observe si on la comprend ou non, ajuste. Ces trois parcours décrivent, étonnamment bien, les trois grandes façons dont une intelligence artificielle apprend.
Définition à trois niveaux
Les IA apprennent de trois manières : en étant corrigées par un professeur, en explorant seules des masses de données, ou en étant récompensées quand elles réussissent.
Les algorithmes de machine learning se classent en trois grandes familles selon le type de signal qu’ils reçoivent pendant leur entraînement : des réponses attendues, aucune réponse, ou une récompense différée.
L’apprentissage automatique regroupe trois paradigmes canoniques — supervisé, non supervisé et par renforcement — définis par la structure du signal d’apprentissage et la nature du retour fourni à l’algorithme.
L’analogie-maîtresse : trois manières d’apprendre une langue étrangère
Pour saisir ce qui distingue ces trois familles, imaginons la même personne — vous — qui veut apprendre l’italien. Trois stratégies s’offrent à vous, et chacune correspond à l’une des grandes familles de l’apprentissage automatique.
Stratégie 1 — L’école de langue
Vous vous inscrivez à un cours. Un enseignant vous tend un manuel : chaque exercice est associé à sa correction. Vous écrivez « Io sono stanco », et quelqu’un vous dit si c’est juste ou non. Au bout de milliers de phrases tentées et corrigées, vous avez intériorisé une intuition de ce qui sonne italien et de ce qui ne sonne pas. Vous ne récitez pas les règles : vous avez développé un flair statistique. C’est l’apprentissage supervisé. On fournit à l’algorithme des milliers d’exemples accompagnés de la bonne réponse (cette image est un chat, celle-ci un chien), et il apprend à reproduire la bonne réponse sur des exemples inédits.
Stratégie 2 — L’immersion sans cours
Vous partez vivre à Rome six mois, sans école. Personne ne corrige vos phrases — d’ailleurs vous n’en formez pas encore. Vous écoutez, vous lisez, vous regardez la télévision. Peu à peu, des structures émergent sans que personne ne vous les nomme : vous percevez que certains mots se terminent souvent par -zione, que certaines intonations signalent une question, que certains regroupements de mots reviennent toujours ensemble. C’est l’apprentissage non supervisé. L’algorithme reçoit une masse de données brutes sans étiquette et en fait émerger une structure : regroupements, régularités, anomalies. C’est ainsi qu’un outil marketing découvre des segments de clientèle qu’aucun chef de produit n’avait imaginés.
Stratégie 3 — Le bar à essais
Vous entrez dans un café et tentez : « Un caffè, per favore. » Le barman vous sert. Succès. Plus tard : « Vorrei una sfogliatella » — regard perplexe, il ne comprend pas. Échec. Personne ne vous explique précisément pourquoi : vous recevez juste un signal global — ça marche, ça ne marche pas. Vous ajustez vos tentatives suivantes. C’est l’apprentissage par renforcement. L’algorithme agit dans un environnement, reçoit une récompense positive ou négative, et apprend à maximiser cette récompense au fil du temps. C’est ainsi qu’AlphaGo a appris le go, et c’est ainsi que ChatGPT a été affiné pour paraître poli et utile.
Déconstruction : les cinq familles que vous rencontrerez
Les trois stratégies précédentes sont les fondamentaux. Deux variantes modernes méritent d’être connues d’un manager, parce qu’elles nourrissent la plupart des IA que vous utilisez au quotidien.
| Type d’apprentissage | Dans notre analogie | Usage réel |
|---|---|---|
| Supervisé | Le cours de langue avec prof qui corrige | Reconnaissance d’images, scoring de crédit, détection de spam |
| Non supervisé | L’immersion sans cours dans un pays étranger | Segmentation client, détection de fraudes, exploration de bases |
| Par renforcement | Commander un café, observer la réaction | AlphaGo, robotique, affinage de ChatGPT (RLHF) |
| Auto-supervisé | Les exercices à trous : on cache un mot et on tente de le deviner | Pré-entraînement des LLM (ChatGPT, Claude, Gemini) |
| Par transfert | Un hispanophone qui apprend l’italien : 70 % lui sont déjà familiers | Fine-tuning d’un modèle généraliste sur votre secteur |
Une précision importante sur les LLM. Un modèle comme ChatGPT ou Claude n’est pas issu d’une seule méthode. Il est d’abord pré-entraîné par apprentissage auto-supervisé sur des milliards de textes — il joue, si l’on veut, à un gigantesque texte à trous. Il est ensuite affiné par apprentissage supervisé sur des exemples rédigés par des humains. Il est enfin poli par apprentissage par renforcement à partir de retours humains (le fameux RLHF). Trois stratégies, un seul apprenant.
Ce que ça change pour vous
Ces distinctions ne sont pas théoriques. Elles ont des conséquences concrètes quand vous pilotez ou commanditez un projet IA dans votre organisation.
1. Le supervisé coûte cher en amont. Qui va étiqueter vos milliers d’exemples ? L’annotation humaine est souvent le poste budgétaire caché d’un projet de classification — et la qualité des étiquettes détermine tout le reste.
2. Le non supervisé révèle ce que vous ignoriez — pour le meilleur et pour le pire. Il peut produire des segments client qui n’ont aucun sens métier. Prévoyez du temps humain pour interpréter et filtrer les regroupements.
3. Le renforcement demande un environnement de test. Un agent qui « apprend en faisant » ne peut pas apprendre directement sur vos vrais clients : il lui faut une simulation ou un sandbox pour éviter que ses erreurs d’apprentissage ne coûtent cher.
4. Votre fournisseur vous parle de fine-tuning ? C’est de l’apprentissage par transfert. Utile, souvent suffisant, rarement miraculeux. Demandez toujours sur quel corpus d’adaptation il a été réalisé — et surtout qui a produit ce corpus.
5. Trois questions à poser à tout consultant IA. Quel type d’apprentissage utilisez-vous ? Qui produit les étiquettes ou les signaux de récompense ? Comment évaluez-vous les résultats sur un jeu de données que le modèle n’a jamais vu ?
FAQ débutants
Deux œuvres fondatrices
Contexte. Au début des années 1950, Arthur Samuel, ingénieur chez IBM, développe un programme capable de jouer au jeu de dames. L’article de 1959 synthétise près d’une décennie d’expériences et forge au passage l’expression machine learning.
L’idée centrale. Un programme peut apprendre à mieux jouer que celui qui l’a écrit, simplement en jouant contre lui-même et en ajustant ses évaluations au fil des parties. Autrement dit, la performance n’a pas besoin d’être codée : elle peut être apprise à partir d’expérience.
Pourquoi cela a changé le domaine. Première démonstration convaincante qu’un programme peut progresser par lui-même. Les deux procédures décrites préfigurent à la fois l’apprentissage supervisé (évaluation de positions à partir d’exemples) et l’apprentissage par renforcement (jeu contre soi-même avec signal de victoire).
Contexte. Publié une première fois en 1998, refondé en 2018, ce manuel est devenu la référence mondiale de l’apprentissage par renforcement (plus de 75 000 citations). Ses deux auteurs ont reçu le Prix Turing 2024 (annoncé en mars 2025) pour leurs contributions fondatrices au domaine.
L’idée centrale. Apprendre, ce n’est pas seulement classer des exemples. C’est aussi agir dans un environnement, recevoir des récompenses parfois tardives, et ajuster son comportement pour maximiser la somme des récompenses à long terme. Le livre formalise les trois ingrédients indispensables : un agent, un environnement, une fonction de récompense.
Pourquoi cela a changé le domaine. Sans ce cadre conceptuel, ni AlphaGo ni le RLHF qui polit ChatGPT n’auraient été pensables. La thèse de Sutton, « The Bitter Lesson », est devenue une boussole du secteur : à long terme, les méthodes génériques qui exploitent le calcul massif l’emportent sur celles qui encodent la connaissance humaine en dur.
Trois prompts pour apprendre
À tester dans ChatGPT, Claude, Gemini ou Mistral. Ces prompts sont conçus pour des débutants : aucun outil technique, aucune configuration préalable.
Explique-moi les trois grands types d’apprentissage en IA (supervisé, non supervisé, renforcement) en utilisant une analogie de ton choix, autre que la cuisine ou la langue étrangère. Prends 200 mots maximum.
🎯 Objectif : explorer le concept par une analogie différente. | 📚 Ce qu’on apprend : la souplesse d’une bonne analogie, et la capacité du LLM à reformuler un concept sous des angles variés.
Je veux tester ma compréhension. Je te donne un cas : « Une banque utilise des millions d’historiques de prêts pour prédire si un nouveau client sera solvable. » De quel type d’apprentissage s’agit-il, et pourquoi ? Réponds en trois phrases.
🎯 Objectif : vérifier qu’on a bien compris la distinction. | 📚 Ce qu’on apprend : associer un cas d’usage à une famille, en identifiant la nature du signal d’entraînement.
Je dirige un service client et je veux automatiser le tri des réclamations. Quel type d’apprentissage serait le plus adapté si (a) je dispose d’un historique de réclamations déjà catégorisées, (b) je n’ai aucune catégorisation préalable ? Justifie chaque choix.
🎯 Objectif : transférer le concept à un cas de management concret. | 📚 Ce qu’on apprend : le choix du type d’apprentissage dépend moins du secteur que de la nature des données dont on dispose.
Note méthodologique. Cet article a été rédigé avec l’assistance de Claude (Anthropic) selon un gabarit pédagogique conçu et tenu à jour par l’autrice. Les deux œuvres fondatrices citées ont été vérifiées sur sources primaires (IBM Journal, MIT Press, annonce ACM du Prix Turing 2024). L’analogie de la langue étrangère est originale et filée à dessein sur l’ensemble du billet.










Laisser un commentaire