Un grand chef ne commence jamais par allumer ses fourneaux. Il commence par sa mise en place : dés d’oignon prêts, herbes ciselées, beurre en pommade, sauces mères dans des petits bols. Quand la commande tombe, il ne manipule plus d’ingrédients bruts — il assemble des morceaux déjà calibrés. Cette étape invisible conditionne pourtant tout le service.
Un token, en trois phrases
Niveau 1 — Tout public
Un token est un petit morceau de texte. Une IA de langage ne lit pas des mots ; elle lit ces morceaux.
Niveau 2 — Manager
Un token est l’unité minimale qu’un modèle de langage manipule. C’est aussi l’unité de facturation : chaque appel à un LLM est comptabilisé en tokens d’entrée et tokens de sortie.
Niveau 3 — Académique
Un token est une sous-unité lexicale produite par un algorithme de segmentation (tokenizer) entraîné à découper du texte en fragments statistiquement fréquents dans un corpus de référence.
L’analogie-maîtresse : la mise en place du chef
Reprenons notre chef. Avant l’ouverture du service, il examine son cahier de recettes, repère les ingrédients qui reviennent dans presque tous les plats — oignon, ail, beurre, bouillon — et en prépare de grandes quantités pré-découpées. Pour les ingrédients rares (une truffe blanche utilisée deux fois par semaine), il ne coupe qu’au moment voulu. Cette mise en place n’est pas neutre : elle dépend du style du restaurant, des habitudes du chef, des cartes précédentes.
Un modèle de langage fait exactement cela, mais avec du texte. Avant même que le modèle ne « lise » votre question, un petit programme appelé tokenizer la découpe en fragments. Les fragments très fréquents dans la langue (« les », « que », « -ment », « -ation ») ont leur propre token dédié, déjà pré-calibré dans le vocabulaire du modèle. Les fragments rares — un nom propre, un terme technique, un mot étranger — sont reconstruits à partir de plusieurs petits tokens.
Le découpage n’est pas aléatoire. Il a été appris sur un immense corpus — souvent des milliards de mots — et le tokenizer a mémorisé quelles séquences de caractères reviennent le plus souvent. C’est pour cela qu’un même mot n’est pas découpé de la même façon d’un modèle à l’autre : chaque LLM a son propre « chef de mise en place », formé sur sa propre cuisine.
Exemple concret : le mot « extraordinaire » peut être découpé en « extra » + « ordin » + « aire » par un tokenizer entraîné majoritairement sur de l’anglais, mais rester un token unique chez un tokenizer mieux exposé au français. Un nom propre peu courant comme « Saint-Gobain » deviendra probablement quatre ou cinq tokens, parce qu’il n’apparaît pas assez souvent dans le corpus d’entraînement pour mériter un token dédié.
Les limites de cette image. Un chef cuisinier ressent la fatigue, la pression du service, la texture sous ses doigts. Un tokenizer, lui, applique mécaniquement un découpage statistique appris une fois pour toutes — sans goût, sans jugement, sans compréhension. Un mot mal tokenisé (en langue peu représentée, par exemple) coûtera plus cher et dégradera la qualité des réponses, sans que le modèle n’émette le moindre signal d’alerte.
Les rouages, traduits
Cinq notions techniques à connaître, chacune avec son équivalent culinaire et sa traduction simple.
| Terme technique | Dans notre analogie | En réalité (sans jargon) |
|---|---|---|
| Vocabulaire du tokenizer | La carte des ingrédients pré-découpés du restaurant | Une liste finie de 30 000 à 200 000 fragments de texte, mémorisés une fois pour toutes |
| Algorithme de segmentation (BPE, WordPiece, Unigram) | La méthode de mise en place propre au chef | La règle qui décide comment découper un texte nouveau à partir du vocabulaire mémorisé |
| Corpus d’entraînement | Les cartes de tous les services précédents du restaurant | Les milliards de mots qui ont servi à identifier les fragments fréquents |
| Token rare (split multiple) | Une truffe découpée en éclats au dernier moment | Un mot peu connu reconstruit à partir de plusieurs petits tokens |
| Fenêtre de contexte | La capacité totale du plan de travail pendant le service | Le nombre maximal de tokens que le modèle peut manipuler en une seule requête |
Ce que ça change pour vous
Comprendre la tokenisation a cinq conséquences concrètes pour un manager ou un étudiant en gestion qui utilise des LLM au quotidien.
- Vos factures IA dépendent du découpage. Les API d’OpenAI, Anthropic et Google facturent au token. Un même texte peut coûter sensiblement plus cher en français qu’en anglais, parce que le tokenizer « mâche » moins bien la langue française — les corpus d’entraînement sont majoritairement anglophones.
- Votre fenêtre de contexte est une fenêtre en tokens, pas en mots. Quand un fournisseur annonce une fenêtre de 200 000 tokens, cela correspond en français à environ 120 000 à 150 000 mots. Un rapport stratégique y tient ; un livre entier le dépasse.
- Vos prompts système sont comptés à chaque requête. Un prompt système de 500 mots consomme environ 700 à 900 tokens. Multiplié par 10 000 requêtes, c’est la facture de répétition mécanique de vos instructions.
- Certaines langues sont structurellement pénalisées. L’arabe, le turc, le japonais, le coréen — et à un moindre degré le français — génèrent davantage de tokens pour un contenu équivalent. Votre budget IA multilingue ne peut pas se calculer par simple règle de trois.
- Les noms propres et le jargon interne coûtent cher. Un prompt saturé de références à des marques maison, des produits internes ou un jargon sectoriel peu représenté dans les corpus publics consomme davantage de tokens qu’une reformulation en langage générique.
FAQ débutants
Les deux articles fondateurs
① Sennrich, Haddow & Birch (2016) — Neural Machine Translation of Rare Words with Subword Units. Le papier fondateur qui impose la tokenisation en sous-mots. BPE est aujourd’hui à la base des tokenizers de GPT, Llama, Mistral et de la majorité des LLM modernes. doi.org/10.18653/v1/P16-1162
② Kudo & Richardson (2018) — SentencePiece. SentencePiece rend la tokenisation véritablement multilingue. Llama, T5, mT5 et la plupart des modèles multilingues l’utilisent. Sans ce papier, pas de modèles capables d’ingérer 100 langues d’un seul jet. doi.org/10.18653/v1/D18-2012
Trois prompts pour explorer par vous-même
Prompt 1 — Explorer
Découpe la phrase suivante en tokens comme le ferait un LLM, et explique pourquoi certains mots sont fragmentés et d'autres non : « [insérer ici une phrase de votre secteur, avec noms propres et jargon] ».
Objectif : visualiser le découpage réel sur un texte familier. Ce qu’on apprend : repérer les termes « coûteux » de son jargon métier.
Prompt 2 — Tester sa compréhension
Explique-moi, avec une analogie différente de la mise en place du chef, pourquoi un LLM découpe les mots en tokens plutôt que de les lire entiers.
Objectif : vérifier qu’on a compris en reformulant. Ce qu’on apprend : consolider la notion via une autre image mentale.
Prompt 3 — Cas pratique management
Je dois rédiger un prompt système de 2 000 mots pour mon équipe commerciale. Évalue combien de tokens cela représente en français, et propose trois versions raccourcies avec leur coût relatif.
Objectif : traduire la notion en décision budgétaire. Ce qu’on apprend : calibrer concrètement ses prompts en fonction de leur coût.





















