Tout comprendre à la vectorisation par les LLM Exercices et Prompts

Imaginez que vous êtes perdu dans une ville inconnue. Vous ouvrez votre GPS. En quelques secondes, il vous localise : 48.8566° N, 2.3522° E. Ces deux nombres ne « comprennent » pas Paris. Ils ne connaissent ni ses cafés ni son histoire. Mais ils savent exactement où Paris se situe par rapport à Lyon, à Madrid, à Tokyo. Et c’est suffisant pour tout calculer.

Chaque mot dans un grand modèle de langage reçoit le même traitement. Avant même de lire votre question, le modèle attribue à chaque mot ses propres « coordonnées ». C’est la vectorisation.

Qu’est-ce que la vectorisation ?

Niveau 1 — Enfant / Tout public

La vectorisation, c’est transformer chaque mot en une liste de chiffres, comme lui donner une adresse dans un espace gigantesque. Les mots qui se ressemblent ont des adresses proches.

Niveau 2 — Manager / Décideur

La vectorisation convertit chaque mot (ou token) en un vecteur numérique de haute dimension. Ces vecteurs — appelés embeddings — capturent les relations sémantiques entre les mots à partir de l’analyse statistique de milliards de textes. Ils sont la matière première que le LLM manipule pour produire ses réponses.

Niveau 3 — Définition académique

La vectorisation (ou word embedding) est une technique de représentation distribuée qui projette les unités lexicales dans un espace vectoriel continu de dimension d (généralement 128 à 4 096). La proximité géométrique dans cet espace encode la similarité sémantique et syntaxique, permettant des opérations algébriques sur le sens.

L’analogie du GPS de sens

Planter le décor. Un GPS fonctionne avec deux (ou trois) nombres : latitude, longitude, altitude. Ces nombres ne « savent » pas ce qu’est une ville. Mais ils permettent de calculer des distances, des directions, des trajets. Paris est à 343 km de Lyon. Berlin est plus proche de Varsovie que de Lisbonne. Ces relations géographiques sont entièrement encodées dans des coordonnées numériques.

Le mécanisme. Avant de « lire » votre question, un modèle comme ChatGPT ou Claude passe chaque mot dans une étape de vectorisation. Résultat : le mot « roi » devient une liste de 768 nombres (ou 1 024, ou 4 096 selon le modèle). Le mot « reine » aussi. Et ces deux listes de nombres sont très proches l’une de l’autre dans l’espace mathématique — comme Paris et Lyon sur une carte.

La propriété qui change tout. Avec des coordonnées GPS, on peut faire des calculs : le point situé à mi-chemin entre Paris et Madrid est quelque part dans les Pyrénées. Avec des vecteurs de mots, on peut faire des calculs similaires sur le sens. La célèbre démonstration de Word2Vec : vecteur(« roi ») − vecteur(« homme ») + vecteur(« femme ») ≈ vecteur(« reine »). Le deep learning a transformé le sens des mots en quelque chose de calculable.

Ce que ça change pour le modèle. Grâce aux embeddings, le modèle n’a pas besoin d’apprendre séparément que « médecin » et « docteur » signifient la même chose. Leurs vecteurs sont proches. Il n’a pas besoin qu’on lui dise que « acheter » et « vendre » sont opposés mais liés : leurs vecteurs reflètent cette relation. Toute la sémantique du langage — les nuances, les synonymes, les antonymes, les contextes — est encodée dans des distances géométriques.

🛑 Les limites de cette image. Un GPS fonctionne en 3 dimensions. Les vecteurs d’un LLM en ont des centaines ou milliers — impossible à visualiser. De plus, une coordonnée GPS est fixe : Paris est toujours au même endroit. Mais les embeddings contextuels (ceux des Transformers modernes) sont dynamiques : le vecteur du mot « avocat » change selon la phrase — droit ou cuisine. Ce n’est pas un GPS statique, mais une carte qui se reconfigure à chaque phrase.

Déconstruire la vectorisation : 4 composants clés

Terme technique Dans l’analogie GPS

Le token

Avant d’être vectorisé, chaque mot est découpé en tokens — des fragments de mots. C’est la ville que l’on veut localiser. Sans nom précis, pas de coordonnées possibles.

Terme technique Dans l’analogie GPS

Le vecteur (embedding)

Chaque token reçoit une liste de 768 à 4 096 nombres. Ce sont ses coordonnées dans l’espace de sens. Comme latitude + longitude + altitude, mais en 768 dimensions. Impensable visuellement, parfaitement calculable.

Terme technique Dans l’analogie GPS

L’espace d’embedding

L’ensemble des vecteurs forme un espace mathématique — comme la planète entière sur laquelle les villes sont positionnées. Dans cet espace, les mots liés sémantiquement sont géographiquement proches. « Banque » (finance) et « banque » (rivière) ont des coordonnées différentes selon le contexte.

Terme technique Dans l’analogie GPS

La distance sémantique

On mesure la proximité entre deux mots par la distance cosinus entre leurs vecteurs — l’équivalent de la distance kilométrique entre deux villes. « Heureux » et « joyeux » : distance faible. « Heureux » et « algèbre » : distance élevée. C’est ainsi que le mécanisme d’attention sait quels mots « regarder » en priorité.

Ce que la vectorisation change pour vous

  • Comprendre pourquoi le modèle « associe » des idées. Quand un LLM relie votre question sur la gestion d’équipe à des concepts de leadership, ce n’est pas de la magie : les vecteurs de ces mots sont proches dans l’espace d’embedding. C’est pour cela qu’il semble « comprendre » les synonymes et les reformulations.
  • Interpréter les limites de précision. Si vous utilisez un jargon très technique (acronyme interne, néologisme sectoriel), le modèle peut avoir un vecteur imprécis pour ce terme — car il était rare ou absent dans ses données d’entraînement. C’est là que le fine-tuning sur vos données devient pertinent.
  • Comprendre le RAG et la recherche sémantique. Les moteurs de recherche classiques cherchent des mots-clés exacts. La recherche par embeddings trouve des sens similaires, même avec des mots différents. C’est le fondement du RAG (Retrieval-Augmented Generation) : vos documents sont vectorisés, et le modèle retrouve ceux dont le sens est le plus proche de votre question.
  • Anticiper les biais. Les vecteurs sont appris sur les textes humains — avec leurs biais. Si dans les données d’entraînement « infirmière » apparaît souvent proche de « femme » et « médecin » proche de « homme », les vecteurs reflètent ce biais. Comprendre la vectorisation, c’est comprendre d’où viennent les biais algorithmiques.
  • Choisir le bon modèle pour vos données. Tous les modèles ne vectorisent pas la même chose de la même manière. Un modèle entraîné sur des textes juridiques aura des vecteurs plus précis pour le vocabulaire contractuel. Les Scaling Laws montrent qu’un modèle plus grand produit généralement des embeddings plus riches — mais à quel coût ?

Questions fréquentes des débutants

Un vecteur, c’est comme un dictionnaire de synonymes ?
Pas tout à fait. Un dictionnaire de synonymes vous dit : « heureux = content = joyeux ». Un vecteur fait bien plus : il encode toutes les relations du mot avec tous les autres mots du vocabulaire, apprises sur des milliards de textes. « Heureux » n’est pas juste proche de « content » — il est aussi à une certaine distance de « tristesse », de « célébration », de « fortune ». C’est une carte de sens en plusieurs centaines de dimensions, pas une liste de synonymes.
Combien de dimensions a un vecteur ? C’est quoi concrètement ?
Selon le modèle, un embedding fait 128 à 4 096 dimensions. Concrètement, c’est une liste de nombres décimaux : [0.32, -0.87, 0.14, 0.95, …] et ainsi de suite sur des centaines de lignes. Chaque nombre n’a pas de sens « humain » isolément — c’est leur combinaison qui encode le sens. Personne ne sait exactement ce que représente la dimension n°247. C’est l’une des raisons pour lesquelles les LLM sont difficiles à interpréter.
Est-ce que le modèle « comprend » vraiment les mots grâce aux vecteurs ?
C’est la question centrale, et la réponse est : pas comme un humain. Le modèle manipule des distances géométriques entre vecteurs — des opérations mathématiques. Il ne « sait » pas que « chien » est un animal de compagnie qui aboie. Il sait que le vecteur de « chien » est proche de ceux de « chat », « animal », « laisse », « vétérinaire ». Ce n’est pas de la compréhension — c’est de la reconnaissance de patterns statistiques. Mais cette distinction est souvent imperceptible en pratique.
Vectorisation et tokens, c’est la même chose ?
Non, ce sont deux étapes distinctes. D’abord, le texte est découpé en tokens (fragments de mots). Ensuite, chaque token est vectorisé (transformé en vecteur numérique). Le token est l’unité d’entrée ; le vecteur est sa représentation numérique. Sans tokenisation, pas de vectorisation possible.
Pourquoi les vecteurs changent-ils selon le contexte ?
Dans les anciens modèles (Word2Vec), le vecteur de « avocat » était identique dans « mon avocat défend mon dossier » et « j’ai mangé un avocat ». Les Transformers modernes calculent des embeddings contextuels : le vecteur de chaque mot est calculé en tenant compte de tous les autres mots de la phrase. C’est le mécanisme d’attention qui rend cela possible.

Les deux articles fondateurs

📄 Article 1 — La naissance de l’idée (2003) ✅

Contexte : En 2003, Yoshua Bengio et ses collègues de l’Université de Montréal publient dans le Journal of Machine Learning Research un article qui révolutionne silencieusement le traitement du langage naturel. À l’époque, les modèles de langage traitent les mots comme des entités indépendantes sans relation entre elles.

L’idée centrale : Bengio propose d’associer à chaque mot du vocabulaire un vecteur numérique appris automatiquement — ce qu’il appelle une « représentation distribuée ». Plutôt que de traiter chaque mot comme une case isolée, le modèle apprend à placer les mots dans un espace continu où leur position encode leur sens. C’est la première formalisation rigoureuse de ce que nous appelons aujourd’hui les embeddings.

Pourquoi ça a tout changé : Ce travail a posé les bases théoriques de toute la vectorisation moderne. Vingt ans plus tard, chaque LLM — GPT, Claude, Gemini — utilise une version sophistiquée de cette idée.

Bengio, Y., Ducharme, R., Vincent, P., & Janvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137–1155. Accessible : jmlr.org

📄 Article 2 — La démonstration qui a tout popularisé (2013) ✅

Contexte : Dix ans après Bengio, Tomas Mikolov et ses collègues de Google publient sur arXiv un article qui rend les embeddings accessibles et démontrent leur puissance à une échelle inédite. Word2Vec est né.

L’idée centrale : Mikolov propose deux architectures simples (CBOW et Skip-gram) pour apprendre des représentations vectorielles de haute qualité à partir de corpus géants — en moins d’une journée sur 1,6 milliard de mots. Et il démontre la propriété la plus fascinante de ces vecteurs : on peut y faire de l’arithmétique sémantique. Roi − Homme + Femme ≈ Reine. C’est la démonstration que le sens est géométrique.

Vectorisation : l’espace de sens Chaque mot reçoit des coordonnées dans un espace multidimensionnel. Les mots sémantiquement proches ont des vecteurs proches, comme des villes voisines sur une carte. dim. 1 dim. 2 espace à 768+ dimensions — projeté en 2D pour visualisation royauté / pouvoir roi reine prince pouvoir émotions positives heureux joyeux content algèbre sens éloigné « Le roi abdique » chaque token → vecteur opération vectorielle roi − homme + femme ≈ reine distance élevée

Les mots sémantiquement proches ont des coordonnées proches dans l’espace de sens.

4 exemples de dimensions — coordonnées de quelques mots

Mot dim. 1
genre (masc→fém)
dim. 2
statut (ord.→royal)
dim. 3
valence (nég.→pos.)
dim. 4
abstraction
roi 0,82 0,94 0,60 0,18
reine 0,18 0,94 0,62 0,18
heureux 0,50 0,08 0,92 0,82
guerre 0,60 0,55 0,12 0,55
algèbre 0,50 0,08 0,50 0,98
+ 764 autres dimensions  →  [0,23, −0,41, 0,07, 0,88, −0,19, 0,34, …]

Comment lire ce tableau ?

Chaque valeur est un nombre compris entre 0 et 1 (ou négatif dans un vrai modèle). Regardez roi et reine : leurs valeurs sur les dimensions 2 (statut) et 4 (abstraction) sont quasiment identiques — ils appartiennent au même cluster. Mais la dimension 1 (genre) les sépare nettement : 0,82 contre 0,18. C’est exactement ce que le schéma montre visuellement : même cluster, positions légèrement décalées.

Attention : ces 4 dimensions portent ici des noms humains à des fins pédagogiques. Dans un vrai modèle (Word2Vec, BERT, GPT), les 768 dimensions ne sont pas interprétables individuellement — elles encodent des combinaisons floues de propriétés sémantiques apprises automatiquement sur des milliards de textes. Personne, y compris les chercheurs, ne sait ce que « représente » la dimension n°247.

Pourquoi ça a tout changé : Word2Vec a popularisé les embeddings dans toute la communauté NLP et au-delà. Il a prouvé qu’on pouvait capturer des relations linguistiques complexes avec des ressources computationnelles raisonnables. Tous les modèles de machine learning sur texte qui ont suivi en dépendent.

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. Accessible : arxiv.org

3 prompts pour explorer la vectorisation

Prompt 1 — Explorer

Explique-moi la vectorisation dans les LLM comme si j’étais un manager qui n’a aucune formation technique. Utilise une analogie du quotidien différente de celle du GPS. Donne 3 exemples concrets de ce que les vecteurs permettent de faire.

🎯 Objectif : tester différentes analogies et consolider l’intuition | 📚 Ce qu’on apprend : la polyvalence du concept, ses applications concrètes

Prompt 2 — Tester sa compréhension

Je pense avoir compris la vectorisation : c’est transformer les mots en chiffres pour que l’ordinateur puisse les calculer. Est-ce que c’est suffisant comme définition ? Qu’est-ce que j’ai manqué ? Explique en 3 points ce que ma définition ne dit pas.

🎯 Objectif : identifier les lacunes de compréhension | 📚 Ce qu’on apprend : la profondeur du concept (relations, dimensions, propriétés algébriques)

Prompt 3 — Cas pratique management

Je dirige une équipe marketing et nous envisageons d’utiliser un outil de recherche sémantique sur notre base documentaire. On me parle d’embeddings et de vectorisation. Quelles questions dois-je poser au prestataire technique pour m’assurer que la solution correspond à nos besoins ? Donne-moi 5 questions concrètes.

🎯 Objectif : traduire le concept en décision managériale | 📚 Ce qu’on apprend : les critères de choix d’une solution basée sur les embeddings

Note méthodologique — Cet article a été rédigé avec l’assistance de Claude (Anthropic), dans le cadre d’une démarche de production de contenu pédagogique supervisée. Les références académiques ont été vérifiées manuellement. Les analogies et le choix éditorial restent sous la responsabilité de l’auteure.

Suivre le blog

Sans newsletter qui monétise vos données.

📡 RSS 📖 WP LinkedIn → S’abonner

En savoir plus sur Maria Mercanti-Guérin

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Poursuivre la lecture