Token : comprendre comment une IA découpe vos mots avant de les lire

Pédagogie IA · Concepts pour managers · 19 avril 2026 · 8 min de lecture

Un grand chef ne commence jamais par allumer ses fourneaux. Il commence par sa mise en place : dés d’oignon prêts, herbes ciselées, beurre en pommade, sauces mères dans des petits bols. Quand la commande tombe, il ne manipule plus d’ingrédients bruts — il assemble des morceaux déjà calibrés. Cette étape invisible conditionne pourtant tout le service.

Un token, en trois phrases

Niveau 1 — Tout public

Un token est un petit morceau de texte. Une IA de langage ne lit pas des mots ; elle lit ces morceaux.

Niveau 2 — Manager

Un token est l’unité minimale qu’un modèle de langage manipule. C’est aussi l’unité de facturation : chaque appel à un LLM est comptabilisé en tokens d’entrée et tokens de sortie.

Niveau 3 — Académique

Un token est une sous-unité lexicale produite par un algorithme de segmentation (tokenizer) entraîné à découper du texte en fragments statistiquement fréquents dans un corpus de référence.

L’analogie-maîtresse : la mise en place du chef

Reprenons notre chef. Avant l’ouverture du service, il examine son cahier de recettes, repère les ingrédients qui reviennent dans presque tous les plats — oignon, ail, beurre, bouillon — et en prépare de grandes quantités pré-découpées. Pour les ingrédients rares (une truffe blanche utilisée deux fois par semaine), il ne coupe qu’au moment voulu. Cette mise en place n’est pas neutre : elle dépend du style du restaurant, des habitudes du chef, des cartes précédentes.

Un modèle de langage fait exactement cela, mais avec du texte. Avant même que le modèle ne « lise » votre question, un petit programme appelé tokenizer la découpe en fragments. Les fragments très fréquents dans la langue (« les », « que », « -ment », « -ation ») ont leur propre token dédié, déjà pré-calibré dans le vocabulaire du modèle. Les fragments rares — un nom propre, un terme technique, un mot étranger — sont reconstruits à partir de plusieurs petits tokens.

Le découpage n’est pas aléatoire. Il a été appris sur un immense corpus — souvent des milliards de mots — et le tokenizer a mémorisé quelles séquences de caractères reviennent le plus souvent. C’est pour cela qu’un même mot n’est pas découpé de la même façon d’un modèle à l’autre : chaque LLM a son propre « chef de mise en place », formé sur sa propre cuisine.

Exemple concret : le mot « extraordinaire » peut être découpé en « extra » + « ordin » + « aire » par un tokenizer entraîné majoritairement sur de l’anglais, mais rester un token unique chez un tokenizer mieux exposé au français. Un nom propre peu courant comme « Saint-Gobain » deviendra probablement quatre ou cinq tokens, parce qu’il n’apparaît pas assez souvent dans le corpus d’entraînement pour mériter un token dédié.

Les limites de cette image. Un chef cuisinier ressent la fatigue, la pression du service, la texture sous ses doigts. Un tokenizer, lui, applique mécaniquement un découpage statistique appris une fois pour toutes — sans goût, sans jugement, sans compréhension. Un mot mal tokenisé (en langue peu représentée, par exemple) coûtera plus cher et dégradera la qualité des réponses, sans que le modèle n’émette le moindre signal d’alerte.

Les rouages, traduits

Cinq notions techniques à connaître, chacune avec son équivalent culinaire et sa traduction simple.

Terme technique	Dans notre analogie	En réalité (sans jargon)
Vocabulaire du tokenizer	La carte des ingrédients pré-découpés du restaurant	Une liste finie de 30 000 à 200 000 fragments de texte, mémorisés une fois pour toutes
Algorithme de segmentation (BPE, WordPiece, Unigram)	La méthode de mise en place propre au chef	La règle qui décide comment découper un texte nouveau à partir du vocabulaire mémorisé
Corpus d’entraînement	Les cartes de tous les services précédents du restaurant	Les milliards de mots qui ont servi à identifier les fragments fréquents
Token rare (split multiple)	Une truffe découpée en éclats au dernier moment	Un mot peu connu reconstruit à partir de plusieurs petits tokens
Fenêtre de contexte	La capacité totale du plan de travail pendant le service	Le nombre maximal de tokens que le modèle peut manipuler en une seule requête

Ce que ça change pour vous

Comprendre la tokenisation a cinq conséquences concrètes pour un manager ou un étudiant en gestion qui utilise des LLM au quotidien.

Vos factures IA dépendent du découpage. Les API d’OpenAI, Anthropic et Google facturent au token. Un même texte peut coûter sensiblement plus cher en français qu’en anglais, parce que le tokenizer « mâche » moins bien la langue française — les corpus d’entraînement sont majoritairement anglophones.
Votre fenêtre de contexte est une fenêtre en tokens, pas en mots. Quand un fournisseur annonce une fenêtre de 200 000 tokens, cela correspond en français à environ 120 000 à 150 000 mots. Un rapport stratégique y tient ; un livre entier le dépasse.
Vos prompts système sont comptés à chaque requête. Un prompt système de 500 mots consomme environ 700 à 900 tokens. Multiplié par 10 000 requêtes, c’est la facture de répétition mécanique de vos instructions.
Certaines langues sont structurellement pénalisées. L’arabe, le turc, le japonais, le coréen — et à un moindre degré le français — génèrent davantage de tokens pour un contenu équivalent. Votre budget IA multilingue ne peut pas se calculer par simple règle de trois.
Les noms propres et le jargon interne coûtent cher. Un prompt saturé de références à des marques maison, des produits internes ou un jargon sectoriel peu représenté dans les corpus publics consomme davantage de tokens qu’une reformulation en langage générique.

FAQ débutants

Non. En anglais, un token correspond en moyenne à environ 75 % d’un mot. En français, c’est plutôt 50 à 60 %. Un mot court peut former un token unique ; un mot long ou rare est souvent découpé en plusieurs tokens.

Parce que le nombre de mots possibles dans une langue est pratiquement infini — avec les noms propres, les néologismes, les fautes de frappe. Le découpage en tokens permet de couvrir n’importe quel texte inconnu avec un vocabulaire fini et maîtrisé.

Non. Chaque famille de modèles a son propre tokenizer. GPT n’utilise pas le même découpage que Claude ou Gemini. C’est pour cela qu’un même prompt peut coûter des sommes différentes selon le fournisseur, à longueur apparente identique.

Cinq leviers : raccourcir les prompts, factoriser les instructions système récurrentes, choisir un modèle plus petit quand la tâche le permet, éviter les répétitions inutiles (historique de conversation, exemples redondants), et privilégier l’anglais pour les tâches qui s’y prêtent.

À anticiper le coût, à vérifier que le texte tient dans la fenêtre de contexte du modèle, et à comparer objectivement deux prompts. Des outils comme le Tokenizer d’OpenAI sont accessibles en ligne et permettent de visualiser le découpage en temps réel.

Les deux articles fondateurs

① Sennrich, Haddow & Birch (2016) — Neural Machine Translation of Rare Words with Subword Units. Le papier fondateur qui impose la tokenisation en sous-mots. BPE est aujourd’hui à la base des tokenizers de GPT, Llama, Mistral et de la majorité des LLM modernes. doi.org/10.18653/v1/P16-1162

② Kudo & Richardson (2018) — SentencePiece. SentencePiece rend la tokenisation véritablement multilingue. Llama, T5, mT5 et la plupart des modèles multilingues l’utilisent. Sans ce papier, pas de modèles capables d’ingérer 100 langues d’un seul jet. doi.org/10.18653/v1/D18-2012

Trois prompts pour explorer par vous-même

Prompt 1 — Explorer

Découpe la phrase suivante en tokens comme le ferait un LLM, et explique pourquoi certains mots sont fragmentés et d'autres non : « [insérer ici une phrase de votre secteur, avec noms propres et jargon] ».

Objectif : visualiser le découpage réel sur un texte familier. Ce qu’on apprend : repérer les termes « coûteux » de son jargon métier.

Prompt 2 — Tester sa compréhension

Explique-moi, avec une analogie différente de la mise en place du chef, pourquoi un LLM découpe les mots en tokens plutôt que de les lire entiers.

Objectif : vérifier qu’on a compris en reformulant. Ce qu’on apprend : consolider la notion via une autre image mentale.

Prompt 3 — Cas pratique management

Je dois rédiger un prompt système de 2 000 mots pour mon équipe commerciale. Évalue combien de tokens cela représente en français, et propose trois versions raccourcies avec leur coût relatif.

Objectif : traduire la notion en décision budgétaire. Ce qu’on apprend : calibrer concrètement ses prompts en fonction de leur coût.

Note méthodologique. Cet article a été rédigé avec l’assistance de Claude (Anthropic) selon un gabarit pédagogique en trois passes : (1) identification et vérification des articles fondateurs, (2) rédaction autour d’une analogie filée, (3) relecture et contrôle des références. Les deux références bibliographiques ont été vérifiées via l’ACL Anthology.