Imaginez que vous êtes perdu dans une ville inconnue. Vous ouvrez votre GPS. En quelques secondes, il vous localise : 48.8566° N, 2.3522° E. Ces deux nombres ne « comprennent » pas Paris. Ils ne connaissent ni ses cafés ni son histoire. Mais ils savent exactement où Paris se situe par rapport à Lyon, à Madrid, à Tokyo. Et c’est suffisant pour tout calculer.
Chaque mot dans un grand modèle de langage reçoit le même traitement. Avant même de lire votre question, le modèle attribue à chaque mot ses propres « coordonnées ». C’est la vectorisation.
Qu’est-ce que la vectorisation ?
La vectorisation, c’est transformer chaque mot en une liste de chiffres, comme lui donner une adresse dans un espace gigantesque. Les mots qui se ressemblent ont des adresses proches.
La vectorisation convertit chaque mot (ou token) en un vecteur numérique de haute dimension. Ces vecteurs — appelés embeddings — capturent les relations sémantiques entre les mots à partir de l’analyse statistique de milliards de textes. Ils sont la matière première que le LLM manipule pour produire ses réponses.
La vectorisation (ou word embedding) est une technique de représentation distribuée qui projette les unités lexicales dans un espace vectoriel continu de dimension d (généralement 128 à 4 096). La proximité géométrique dans cet espace encode la similarité sémantique et syntaxique, permettant des opérations algébriques sur le sens.
L’analogie du GPS de sens
Planter le décor. Un GPS fonctionne avec deux (ou trois) nombres : latitude, longitude, altitude. Ces nombres ne « savent » pas ce qu’est une ville. Mais ils permettent de calculer des distances, des directions, des trajets. Paris est à 343 km de Lyon. Berlin est plus proche de Varsovie que de Lisbonne. Ces relations géographiques sont entièrement encodées dans des coordonnées numériques.
Le mécanisme. Avant de « lire » votre question, un modèle comme ChatGPT ou Claude passe chaque mot dans une étape de vectorisation. Résultat : le mot « roi » devient une liste de 768 nombres (ou 1 024, ou 4 096 selon le modèle). Le mot « reine » aussi. Et ces deux listes de nombres sont très proches l’une de l’autre dans l’espace mathématique — comme Paris et Lyon sur une carte.
La propriété qui change tout. Avec des coordonnées GPS, on peut faire des calculs : le point situé à mi-chemin entre Paris et Madrid est quelque part dans les Pyrénées. Avec des vecteurs de mots, on peut faire des calculs similaires sur le sens. La célèbre démonstration de Word2Vec : vecteur(« roi ») − vecteur(« homme ») + vecteur(« femme ») ≈ vecteur(« reine »). Le deep learning a transformé le sens des mots en quelque chose de calculable.
Ce que ça change pour le modèle. Grâce aux embeddings, le modèle n’a pas besoin d’apprendre séparément que « médecin » et « docteur » signifient la même chose. Leurs vecteurs sont proches. Il n’a pas besoin qu’on lui dise que « acheter » et « vendre » sont opposés mais liés : leurs vecteurs reflètent cette relation. Toute la sémantique du langage — les nuances, les synonymes, les antonymes, les contextes — est encodée dans des distances géométriques.
Déconstruire la vectorisation : 4 composants clés
Le token
Avant d’être vectorisé, chaque mot est découpé en tokens — des fragments de mots. C’est la ville que l’on veut localiser. Sans nom précis, pas de coordonnées possibles.
Le vecteur (embedding)
Chaque token reçoit une liste de 768 à 4 096 nombres. Ce sont ses coordonnées dans l’espace de sens. Comme latitude + longitude + altitude, mais en 768 dimensions. Impensable visuellement, parfaitement calculable.
L’espace d’embedding
L’ensemble des vecteurs forme un espace mathématique — comme la planète entière sur laquelle les villes sont positionnées. Dans cet espace, les mots liés sémantiquement sont géographiquement proches. « Banque » (finance) et « banque » (rivière) ont des coordonnées différentes selon le contexte.
La distance sémantique
On mesure la proximité entre deux mots par la distance cosinus entre leurs vecteurs — l’équivalent de la distance kilométrique entre deux villes. « Heureux » et « joyeux » : distance faible. « Heureux » et « algèbre » : distance élevée. C’est ainsi que le mécanisme d’attention sait quels mots « regarder » en priorité.
Ce que la vectorisation change pour vous
- Comprendre pourquoi le modèle « associe » des idées. Quand un LLM relie votre question sur la gestion d’équipe à des concepts de leadership, ce n’est pas de la magie : les vecteurs de ces mots sont proches dans l’espace d’embedding. C’est pour cela qu’il semble « comprendre » les synonymes et les reformulations.
- Interpréter les limites de précision. Si vous utilisez un jargon très technique (acronyme interne, néologisme sectoriel), le modèle peut avoir un vecteur imprécis pour ce terme — car il était rare ou absent dans ses données d’entraînement. C’est là que le fine-tuning sur vos données devient pertinent.
- Comprendre le RAG et la recherche sémantique. Les moteurs de recherche classiques cherchent des mots-clés exacts. La recherche par embeddings trouve des sens similaires, même avec des mots différents. C’est le fondement du RAG (Retrieval-Augmented Generation) : vos documents sont vectorisés, et le modèle retrouve ceux dont le sens est le plus proche de votre question.
- Anticiper les biais. Les vecteurs sont appris sur les textes humains — avec leurs biais. Si dans les données d’entraînement « infirmière » apparaît souvent proche de « femme » et « médecin » proche de « homme », les vecteurs reflètent ce biais. Comprendre la vectorisation, c’est comprendre d’où viennent les biais algorithmiques.
- Choisir le bon modèle pour vos données. Tous les modèles ne vectorisent pas la même chose de la même manière. Un modèle entraîné sur des textes juridiques aura des vecteurs plus précis pour le vocabulaire contractuel. Les Scaling Laws montrent qu’un modèle plus grand produit généralement des embeddings plus riches — mais à quel coût ?
Questions fréquentes des débutants
Un vecteur, c’est comme un dictionnaire de synonymes ?▼
Combien de dimensions a un vecteur ? C’est quoi concrètement ?▼
Est-ce que le modèle « comprend » vraiment les mots grâce aux vecteurs ?▼
Vectorisation et tokens, c’est la même chose ?▼
Pourquoi les vecteurs changent-ils selon le contexte ?▼
Les deux articles fondateurs
📄 Article 1 — La naissance de l’idée (2003) ✅
Contexte : En 2003, Yoshua Bengio et ses collègues de l’Université de Montréal publient dans le Journal of Machine Learning Research un article qui révolutionne silencieusement le traitement du langage naturel. À l’époque, les modèles de langage traitent les mots comme des entités indépendantes sans relation entre elles.
L’idée centrale : Bengio propose d’associer à chaque mot du vocabulaire un vecteur numérique appris automatiquement — ce qu’il appelle une « représentation distribuée ». Plutôt que de traiter chaque mot comme une case isolée, le modèle apprend à placer les mots dans un espace continu où leur position encode leur sens. C’est la première formalisation rigoureuse de ce que nous appelons aujourd’hui les embeddings.
Pourquoi ça a tout changé : Ce travail a posé les bases théoriques de toute la vectorisation moderne. Vingt ans plus tard, chaque LLM — GPT, Claude, Gemini — utilise une version sophistiquée de cette idée.
Bengio, Y., Ducharme, R., Vincent, P., & Janvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137–1155. Accessible : jmlr.org ✅
📄 Article 2 — La démonstration qui a tout popularisé (2013) ✅
Contexte : Dix ans après Bengio, Tomas Mikolov et ses collègues de Google publient sur arXiv un article qui rend les embeddings accessibles et démontrent leur puissance à une échelle inédite. Word2Vec est né.
L’idée centrale : Mikolov propose deux architectures simples (CBOW et Skip-gram) pour apprendre des représentations vectorielles de haute qualité à partir de corpus géants — en moins d’une journée sur 1,6 milliard de mots. Et il démontre la propriété la plus fascinante de ces vecteurs : on peut y faire de l’arithmétique sémantique. Roi − Homme + Femme ≈ Reine. C’est la démonstration que le sens est géométrique.
Les mots sémantiquement proches ont des coordonnées proches dans l’espace de sens.
4 exemples de dimensions — coordonnées de quelques mots
| Mot | dim. 1 genre (masc→fém) |
dim. 2 statut (ord.→royal) |
dim. 3 valence (nég.→pos.) |
dim. 4 abstraction |
|---|---|---|---|---|
| roi | 0,82 | 0,94 | 0,60 | 0,18 |
| reine | 0,18 | 0,94 | 0,62 | 0,18 |
| heureux | 0,50 | 0,08 | 0,92 | 0,82 |
| guerre | 0,60 | 0,55 | 0,12 | 0,55 |
| algèbre | 0,50 | 0,08 | 0,50 | 0,98 |
| + 764 autres dimensions → [0,23, −0,41, 0,07, 0,88, −0,19, 0,34, …] | ||||
Comment lire ce tableau ?
Chaque valeur est un nombre compris entre 0 et 1 (ou négatif dans un vrai modèle). Regardez roi et reine : leurs valeurs sur les dimensions 2 (statut) et 4 (abstraction) sont quasiment identiques — ils appartiennent au même cluster. Mais la dimension 1 (genre) les sépare nettement : 0,82 contre 0,18. C’est exactement ce que le schéma montre visuellement : même cluster, positions légèrement décalées.
Attention : ces 4 dimensions portent ici des noms humains à des fins pédagogiques. Dans un vrai modèle (Word2Vec, BERT, GPT), les 768 dimensions ne sont pas interprétables individuellement — elles encodent des combinaisons floues de propriétés sémantiques apprises automatiquement sur des milliards de textes. Personne, y compris les chercheurs, ne sait ce que « représente » la dimension n°247.
Pourquoi ça a tout changé : Word2Vec a popularisé les embeddings dans toute la communauté NLP et au-delà. Il a prouvé qu’on pouvait capturer des relations linguistiques complexes avec des ressources computationnelles raisonnables. Tous les modèles de machine learning sur texte qui ont suivi en dépendent.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. Accessible : arxiv.org ✅
3 prompts pour explorer la vectorisation
Prompt 1 — Explorer
Explique-moi la vectorisation dans les LLM comme si j’étais un manager qui n’a aucune formation technique. Utilise une analogie du quotidien différente de celle du GPS. Donne 3 exemples concrets de ce que les vecteurs permettent de faire.
Prompt 2 — Tester sa compréhension
Je pense avoir compris la vectorisation : c’est transformer les mots en chiffres pour que l’ordinateur puisse les calculer. Est-ce que c’est suffisant comme définition ? Qu’est-ce que j’ai manqué ? Explique en 3 points ce que ma définition ne dit pas.
Prompt 3 — Cas pratique management
Je dirige une équipe marketing et nous envisageons d’utiliser un outil de recherche sémantique sur notre base documentaire. On me parle d’embeddings et de vectorisation. Quelles questions dois-je poser au prestataire technique pour m’assurer que la solution correspond à nos besoins ? Donne-moi 5 questions concrètes.
📚 Pour aller plus loin sur ce blog
- Comprendre les tokens : l’étape qui précède la vectorisation
- Attention et Transformer : comment le modèle exploite les vecteurs
- Comment fonctionnent les LLM ? L’analogie du bibliothécaire universel
- RAG : comment vos documents sont vectorisés pour alimenter le modèle
- Fine-tuning : affiner les vecteurs sur vos données métier




















