Les Small Models : produits marketing ou vraie avancée ?

🔎 Bullshit Detector

« La science prouve que les petits modèles d’IA, c’est du marketing »

Niveau : grand public & managers — Temps de lecture : 5 min

L’affirmation qui circule

« Les lois fondamentales de l’IA montrent que plus un modèle est grand, plus il est performant. L’engouement pour les petits modèles, c’est du bruit commercial pour ne pas payer OpenAI. »

Pourquoi ça semble solide

L’affirmation s’appuie sur quelque chose de réel : les scaling laws, c’est-à-dire les « lois d’échelle » de l’intelligence artificielle. Des équipes de recherche chez OpenAI (2020) puis chez Google DeepMind (2022) ont établi une relation mathématique simple : plus vous augmentez la taille d’un modèle, la quantité de données sur lesquelles il s’entraîne, et la puissance de calcul utilisée — meilleures sont ses performances. Et cette relation est prévisible, comme une loi physique.

La version 2022, surnommée « Chinchilla » du nom du modèle qui a servi de test, a même permis de calculer une proportion optimale : environ 20 fois plus de données que de paramètres. Résultat surprenant : la plupart des grands modèles de l’époque avaient trop de « neurones » pour les données disponibles. On leur avait bâti un stade de 80 000 places pour un match de quartier.

Face à cela, l’argument « plus grand = meilleur » semble imparable. Il l’est — dans un cadre très précis.

Ce que la réalité dit

Les scaling laws sont rigoureuses. Le problème, c’est qu’elles mesurent une chose très précise : la capacité d’un modèle à prédire du texte général, dans des conditions d’entraînement contrôlées en laboratoire. Ce n’est pas la même chose qu’être utile dans une entreprise réelle. Trois fissures majeures.

Fissure 1 — La loi Chinchilla justifie les petits modèles, pas l’inverse

Sur-entraîner un petit modèle, ça marche

Chinchilla dit : pour un budget de calcul donné, l’allocation optimale, c’est 20 tokens de données par paramètre. Mais personne ne vous interdit de sortir de cet « optimum ». Si vous prenez un modèle de 8 milliards de paramètres et que vous l’entraînez sur dix fois plus de données que prévu ? Vous obtenez un petit modèle dont les performances dépassent d’anciens géants sous-alimentés. C’est exactement le pari de Llama 3 (Meta), Mistral ou Gemma. Les scaling laws ont justifié l’émergence des small models — elles ne la contredisent pas.

Fissure 2 — La loi ne voit pas ce qui se passe après l’entraînement

La spécialisation change tout

Une grande partie des gains sur les usages réels vient du fine-tuning : entraîner un modèle une deuxième fois, sur les données spécifiques d’un secteur ou d’une entreprise. Un modèle de 7 milliards de paramètres, entraîné sur les conversations clients d’un assureur ou les documents techniques d’un fabricant industriel, peut battre un modèle généraliste dix fois plus lourd sur ces mêmes tâches. Les scaling laws n’ont strictement rien à dire sur cela — elles ne mesurent que l’entraînement initial, pas la spécialisation.

Fissure 3 — La loi mesure la qualité d’entraînement, pas le coût d’utilisation

Faire tourner le modèle, c’est là que ça coûte

Faire tourner un modèle de 400 milliards de paramètres en production, c’est plusieurs centaines d’euros pour mille requêtes. Un modèle de 3 milliards tourne sur un ordinateur portable, parfois sans connexion internet, pour un coût proche de zéro. Pour la majorité des usages en entreprise — rédaction, résumé, classification, extraction d’information — l’écart de qualité entre les deux ne justifie pas l’écart de coût. Les scaling laws ne modélisent pas ça. Elles parlent de laboratoires, pas de factures cloud.

Le verdict

Vrai en laboratoire. Faux dès qu’on sort du laboratoire.

Les scaling laws établissent bien que les grands modèles dominent sur les tâches générales complexes — raisonnement multi-étapes, génération longue, compréhension de l’ambiguïté. Personne ne le conteste. Mais elles décrivent une relation valable toutes choses égales par ailleurs, dans un cadre d’entraînement général, sans prendre en compte la spécialisation, le coût d’inférence, ou le déploiement sur des usages réels.

Dire que « la science prouve que les petits modèles c’est du marketing », c’est comme dire que les études de nutrition prouvent qu’un restaurant trois étoiles est toujours supérieur à cuisiner chez soi. Vrai sur certains critères, dans certains contextes. Faux dès qu’on sort du laboratoire.

Ce qui est injustifié : prétendre qu’un modèle de 3 milliards de paramètres peut tout faire qu’un modèle de 400 milliards fait. Ce qui est parfaitement justifié : choisir un petit modèle spécialisé comme outil de travail quotidien, déployé à coût maîtrisé, sur des tâches métier définies.

Ce que ça change pour vous

Ne choisissez pas un modèle d’IA par sa taille. Choisissez-le selon la tâche, le budget d’utilisation, et la possibilité de le spécialiser sur vos données. La loi de la physique ne paie pas vos factures cloud.

Sources

Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.

Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. de las, Hendricks, L. A., Welbl, J., Clark, A., Hennigan, T., Noland, E., Millican, K., van den Driessche, G., Damoc, B., Guy, A., Osindero, S., Simonyan, K., Elsen, E., … Sifre, L. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556.

Cet article a été rédigé avec l’assistance de Claude (Anthropic). Les arguments, le cadrage éditorial et la vérification des sources sont de l’auteure.