La température d’un LLM — l’analogie du médecin face au diagnostic

Q: Si je mets la température à 0, l'IA donnera-t-elle toujours exactement la même réponse ?

En théorie oui. En pratique presque : il reste de petites variations liées au matériel et au parallélisme des calculs. Pour la majorité des usages, T=0 donne une réponse stable d'un appel à l'autre.

Q: Une température plus élevée rend-elle l'IA plus intelligente ?

Non. Une température haute rend les réponses plus variées mais pas plus justes. Sur un raisonnement précis ou un calcul, elle augmente mécaniquement les erreurs et les hallucinations.

Q: Pourquoi le terme « température » et pas « créativité » ?

Le terme vient de la physique statistique : dans un gaz, plus la température est haute, plus les molécules se dispersent. Ackley, Hinton et Sejnowski ont repris cette image en 1985 pour les réseaux de neurones.

Q: ChatGPT, Claude et Gemini utilisent-ils la même échelle de température ?

Non. OpenAI accepte 0 à 2, Anthropic 0 à 1 pour Claude, Google propose des plages similaires. Un réglage à 1,0 n'a pas la même intensité selon le fournisseur.

Q: Dans ChatGPT grand public, où se règle la température ?

Dans les interfaces publiques (chat.openai.com, claude.ai, gemini.google.com), la température n'est pas exposée à l'utilisateur. Elle est fixée par le fournisseur. Pour la régler, il faut passer par l'API, le playground ou un outil intermédiaire.

La température d’un LLM — l’analogie du médecin face au diagnostic

📘 Lecteur pressé ? Cet article est pensé comme une leçon complète : l’analogie d’abord, la technique ensuite. Vous trouverez 3 exercices et prompts à la fin pour tester votre compréhension et expérimenter la température sur votre assistant IA préféré.

Imaginez trois médecins qui reçoivent exactement le même patient : fatigue, fièvre modérée, éruption cutanée. Le premier suit son protocole à la lettre et annonce « infection virale ». Le second envisage aussi une réaction allergique. Le troisième, intuitif, pense à une maladie tropicale rare. Même symptomatologie, trois réponses. C’est exactement ce qui se joue à l’intérieur d’une IA générative chaque fois que vous lui posez une question.

Qu’est-ce que la température ? Trois formulations

Niveau 1 — Tout public

La température est un bouton qui dose le degré de hasard dans la réponse d’une IA. Bouton au minimum : l’IA est prudente, toujours la même réponse. Bouton au maximum : l’IA devient audacieuse, imprévisible, parfois géniale, parfois délirante.

Niveau 2 — Manager / décideur

La température est un paramètre qui règle l’arbitrage entre fiabilité et créativité dans la génération d’un LLM. Basse pour les contrats, les résumés juridiques et les rapports chiffrés. Haute pour le brainstorming et la rédaction publicitaire.

Niveau 3 — Définition académique

La température T est un facteur d’échelle appliqué aux logits avant le softmax : p_i = exp(z_i / T) / Σ exp(z_j / T). Elle dérive historiquement de la distribution de Boltzmann en physique statistique et contrôle l’entropie de la distribution de probabilité sur les tokens candidats.

L’analogie-maîtresse : trois médecins, un même patient

Restons aux urgences. Un patient se présente avec trois symptômes : fatigue persistante, fièvre légère, éruption cutanée. Sur la base de sa formation et de milliers de cas vus avant, un médecin peut estimer mentalement la probabilité de plusieurs diagnostics : 65 % infection virale bénigne, 20 % allergie médicamenteuse, 10 % infection bactérienne, 4 % maladie auto-immune, 1 % maladie tropicale rare. Ces pourcentages existent dans sa tête, même implicitement.

La question n’est pas quelles sont les probabilités : elle est comment le médecin choisit sa réponse parmi elles.

Le Dr Protocole (température = 0) répond toujours le diagnostic le plus probable. Face à ce patient, il écrira 100 % du temps : « infection virale ». Jamais surpris, jamais surprenant. Deux patients identiques recevront deux ordonnances identiques. Fiable pour les cas courants, aveugle aux signaux faibles.

Le Dr Équilibre (température ≈ 0,7) respecte grossièrement les pourcentages de sa formation. Sur dix patients identiques, il diagnostiquera sept fois viral, deux fois allergique, une fois bactérien. Ses réponses varient mais restent dans la zone cliniquement raisonnable. C’est le clinicien calibré : il laisse la place à la deuxième hypothèse quand elle est sérieuse, sans tomber dans l’exotisme.

Le Dr Intuition (température ≥ 1,2) aplatit ses probabilités. Soudain, l’hypothèse de la maladie tropicale rare n’est plus à 1 %, mais peut être à 15 %. Parfois, il voit ce que personne n’avait vu — un cas de fièvre Q, un syndrome auto-immun qui passait inaperçu. Parfois, il se plante magistralement et prescrit un traitement pour une pathologie que le patient n’a pas. Brillant ou dangereux, selon le jour.

C’est exactement ce que fait la température dans un grand modèle de langage. À chaque mot généré, le modèle calcule la probabilité de chaque token suivant possible. La température agit comme l’attitude clinique du médecin : elle ne change pas les probabilités estimées, elle change la règle de décision qui transforme ces probabilités en choix.

Les limites de cette image. Un médecin a une conscience, un serment, une responsabilité. Il peut dire « je ne sais pas, faisons une prise de sang ». Un LLM ne peut pas s’arrêter : quelle que soit la température, il produira toujours un token suivant. Par ailleurs, un médecin peut corriger une intuition après examen complémentaire. Le modèle, lui, n’a aucun mécanisme d’alerte interne quand il se trompe — il génère des mots plausibles, pas des diagnostics cliniquement validés. C’est d’ailleurs cette absence de garde-fou interne qui explique le lien étroit entre hallucinations et températures élevées.

Déconstruire le mécanisme en 4 images

1. Logits

Dans notre cabinet médicalLes scores bruts que le médecin attribue à chaque diagnostic avant d’arrondir en pourcentages.

En réalité, dans l’IALes valeurs numériques brutes produites par le modèle pour chaque token possible, avant normalisation.

2. Softmax

Dans notre cabinet médicalL’opération mentale par laquelle le médecin transforme ses scores en probabilités qui font bien 100 %.

En réalité, dans l’IAFonction mathématique qui convertit les logits en distribution de probabilité sur l’ensemble des tokens.

3. Température T

Dans notre cabinet médicalLe style clinique du médecin : protocolaire, équilibré ou intuitif.

En réalité, dans l’IACoefficient qui divise les logits avant le softmax. T bas = distribution piquée ; T élevé = distribution aplatie.

4. Sampling

Dans notre cabinet médicalLe moment où le médecin prononce finalement un diagnostic en fonction de son attitude clinique.

En réalité, dans l’IATirage aléatoire du token suivant dans la distribution ajustée par la température.

À noter : la température n’agit pas pendant l’entraînement du modèle. C’est un paramètre d’inférence, c’est-à-dire du moment où vous utilisez l’IA. On peut donc la régler sans modifier le modèle lui-même, contrairement au fine-tuning qui, lui, transforme le modèle en profondeur.

Ce que ça change pour vous, dirigeant ou étudiant en management

La température n’est pas un détail technique réservé aux data scientists. C’est un levier concret que vous pouvez actionner dans ChatGPT, Claude, Gemini ou dans l’API de votre solution SaaS. Cinq implications directes :

Pour un contrat, un mail juridique, une note chiffrée : descendez la température entre 0,0 et 0,3. Vous voulez un Dr Protocole. La même requête doit produire la même réponse, sans improvisation. Idéal pour la documentation, la traduction de clauses, la reformulation réglementaire.
Pour un résumé d’article, un compte rendu de réunion, un rapport analytique : restez entre 0,3 et 0,7. Le texte doit être fluide et naturellement varié, mais pas inventif. C’est la zone du Dr Équilibre.
Pour un brainstorming de noms de marque, un slogan, une accroche publicitaire : montez à 0,9–1,3. Vous cherchez des options, de la divergence, du frottement. C’est la zone du Dr Intuition.
Pour un agent autonome qui exécute des actions : température très basse, souvent 0. Un agent IA qui envoie des emails, réserve des salles ou interroge une base de données ne doit pas être « créatif ». Il doit être prévisible. Une température élevée sur un agent est une source d’incidents opérationnels.
Ne confondez jamais température élevée et intelligence supérieure. Une température haute n’augmente pas la qualité du raisonnement — elle augmente la variété du texte produit. Sur un QCM de certification, un raisonnement juridique ou un calcul, la température haute dégrade systématiquement la performance. Ce point est contre-intuitif pour beaucoup d’utilisateurs.

FAQ — questions fréquentes des étudiants et managers

Si je mets la température à 0, l’IA donnera-t-elle toujours exactement la même réponse ? ▼

En théorie oui. En pratique, presque — il reste de petites variations liées au matériel (GPU) et à l’ordre des calculs en parallèle. Dans la grande majorité des usages professionnels, T=0 donne une réponse stable d’un appel à l’autre. Pour des tests de non-régression ou des comparaisons, c’est le réglage de référence.

Une température plus élevée rend-elle l’IA plus intelligente ? ▼

Non, c’est même l’inverse sur les tâches qui demandent de la rigueur. Une température haute rend les réponses plus variées, pas plus justes. Sur un raisonnement mathématique, un extrait juridique ou une analyse chiffrée, une température élevée augmente mécaniquement le taux d’erreurs et d’hallucinations.

Pourquoi le terme « température » et pas « créativité » ? ▼

Le mot vient de la physique statistique. Dans un gaz, plus la température est haute, plus les molécules s’agitent et se dispersent. Ackley, Hinton et Sejnowski ont repris cette image en 1985 pour les réseaux de neurones : à « température » élevée, les choix du modèle se dispersent. « Créativité » serait trompeur : la machine ne crée rien, elle explore simplement sa distribution de probabilités.

ChatGPT, Claude et Gemini utilisent-ils la même échelle de température ? ▼

L’échelle diffère selon les API. OpenAI accepte typiquement 0 à 2. Anthropic va de 0 à 1 pour Claude. Google propose des plages similaires. Conséquence : un réglage à 1,0 n’a pas la même « agressivité » selon le fournisseur. Règle pratique : testez d’abord à la valeur par défaut, puis ajustez par incréments de 0,2 en observant la variabilité des sorties.

Dans ChatGPT grand public, où se règle la température ? ▼

Dans l’interface publique (chat.openai.com, claude.ai, gemini.google.com), la température n’est pas exposée à l’utilisateur : elle est fixée par le fournisseur et optimisée pour la conversation générale. Pour la régler explicitement, il faut passer par l’API, par le playground du fournisseur, ou par un outil intermédiaire (n8n, Zapier, Make, ou une solution SaaS qui expose ce paramètre). Les utilisateurs des interfaces grand public ne voient donc jamais ce réglage — c’est pour cela qu’il faut savoir qu’il existe.

Deux articles pour comprendre d’où vient la « température »

📖 Article 1 — Ackley, Hinton & Sejnowski (1985)

A Learning Algorithm for Boltzmann Machines. Cognitive Science, 9(1), 147-169. ✅ Référence vérifiée. DOI : 10.1207/s15516709cog0901_7

Contexte. Nous sommes en 1985, bien avant ChatGPT. Hinton, futur prix Nobel de physique 2024, et ses co-auteurs cherchent un moyen de faire apprendre à des réseaux de neurones artificiels. Ils empruntent à la physique statistique l’idée d’un système qui explore plusieurs états possibles, chacun avec une probabilité qui dépend d’une « température ».

L’idée centrale, en langage accessible. Si on laisse un réseau « chaud », il explore beaucoup de configurations, y compris des mauvaises. Si on le refroidit progressivement, il se stabilise sur une bonne solution. Le terme de température, importé de la physique, sert de curseur entre exploration et stabilité.

Pourquoi ça a changé le domaine. Ce papier ancre pour de bon le vocabulaire thermodynamique dans les réseaux de neurones. Quarante ans plus tard, quand OpenAI expose un paramètre « temperature » dans son API, la filiation conceptuelle passe par ici.

📖 Article 2 — Hinton, Vinyals & Dean (2015)

Distilling the Knowledge in a Neural Network. arXiv:1503.02531. ✅ Référence vérifiée.

Contexte. Trente ans plus tard, les réseaux de neurones sont devenus gigantesques et coûteux à faire tourner. Hinton et deux ingénieurs de Google cherchent un moyen de transférer le « savoir » d’un grand modèle vers un petit modèle plus rapide à déployer.

L’idée centrale. Ils remarquent qu’un grand modèle, quand on « chauffe » sa sortie softmax, révèle une information riche : il ne dit pas seulement « c’est un chat », il dit aussi « c’est presque un chien, un peu un renard, pas du tout un avion ». Cette « connaissance sombre » (dark knowledge) ne se voit qu’à température élevée. Le petit modèle qu’on entraîne à imiter le grand apprend beaucoup mieux en voyant ces nuances.

Pourquoi ça a changé le domaine. Ce papier formalise explicitement la température comme un paramètre manipulable du softmax moderne. Toutes les API actuelles de LLM qui exposent un paramètre « temperature » dérivent, techniquement, de cette équation.

Exercices et prompts pour apprendre

Trois exercices à faire dans ChatGPT, Claude ou Gemini. Les deux premiers s’exécutent dans l’interface gratuite. Le troisième demande d’accéder à l’API ou au playground pour régler la température.

🧭 Prompt 1 — Explorer l’analogie

Explique-moi la température d’un LLM avec l’analogie d’un médecin face à un diagnostic. Décris trois profils de médecins correspondant à trois niveaux de température, et donne un exemple concret d’usage pour chaque profil dans le monde du management.

🎯 Objectif : s’approprier l’analogie en la faisant reformuler. 📚 Ce qu’on apprend : qu’une même idée peut être expliquée de plusieurs manières, et que l’analogie tient ou ne tient pas.

🧪 Prompt 2 — Tester sa compréhension

Je te soumets trois situations. Pour chacune, recommande une température (entre 0 et 1) et justifie en une phrase : (1) rédaction d’un contrat de prestation, (2) brainstorming de noms pour une nouvelle gamme de cosmétiques, (3) résumé factuel d’un article scientifique de 15 pages. Format : tableau à trois colonnes.

🎯 Objectif : vérifier qu’on sait associer un cas d’usage à un réglage. 📚 Ce qu’on apprend : distinguer les tâches « fiabilité » des tâches « divergence ».

💼 Prompt 3 — Cas pratique management

Je pilote une campagne marketing digitale. Aide-moi en deux temps. Étape 1 : propose-moi 5 accroches publicitaires osées, originales, surprenantes (mode créatif). Étape 2 : reformule la meilleure accroche dans un ton factuel et sobre, pour un communiqué de presse B2B (mode rigoureux). Indique à quel moment tu as changé de « régime de température ».

🎯 Objectif : expérimenter la bascule créatif ↔ rigoureux dans une même session. 📚 Ce qu’on apprend : un même LLM peut produire des registres très différents selon l’instruction — sans qu’on ait à toucher à un paramètre technique.

📝 Note méthodologique

Cet article a été rédigé avec l’appui d’un assistant IA (Claude Opus 4.7, Anthropic) selon le gabarit pédagogique v1.1 du site. Les deux articles fondateurs (Ackley et al., 1985 ; Hinton et al., 2015) ont été vérifiés par recherche web le 24 avril 2026. L’analogie-maîtresse, les trois niveaux de définition et les prompts sont de la rédactrice.