« La science prouve que les petits modèles d’IA, c’est du marketing »
Niveau : grand public & managers — Temps de lecture : 5 min
« Les lois fondamentales de l’IA montrent que plus un modèle est grand, plus il est performant. L’engouement pour les petits modèles, c’est du bruit commercial pour ne pas payer OpenAI. »
L’affirmation s’appuie sur quelque chose de réel : les scaling laws, c’est-à-dire les « lois d’échelle » de l’intelligence artificielle. Des équipes de recherche chez OpenAI (2020) puis chez Google DeepMind (2022) ont établi une relation mathématique simple : plus vous augmentez la taille d’un modèle, la quantité de données sur lesquelles il s’entraîne, et la puissance de calcul utilisée — meilleures sont ses performances. Et cette relation est prévisible, comme une loi physique.
La version 2022, surnommée « Chinchilla » du nom du modèle qui a servi de test, a même permis de calculer une proportion optimale : environ 20 fois plus de données que de paramètres. Résultat surprenant : la plupart des grands modèles de l’époque avaient trop de « neurones » pour les données disponibles. On leur avait bâti un stade de 80 000 places pour un match de quartier.
Face à cela, l’argument « plus grand = meilleur » semble imparable. Il l’est — dans un cadre très précis.
Les scaling laws sont rigoureuses. Le problème, c’est qu’elles mesurent une chose très précise : la capacité d’un modèle à prédire du texte général, dans des conditions d’entraînement contrôlées en laboratoire. Ce n’est pas la même chose qu’être utile dans une entreprise réelle. Trois fissures majeures.
Sur-entraîner un petit modèle, ça marche
Chinchilla dit : pour un budget de calcul donné, l’allocation optimale, c’est 20 tokens de données par paramètre. Mais personne ne vous interdit de sortir de cet « optimum ». Si vous prenez un modèle de 8 milliards de paramètres et que vous l’entraînez sur dix fois plus de données que prévu ? Vous obtenez un petit modèle dont les performances dépassent d’anciens géants sous-alimentés. C’est exactement le pari de Llama 3 (Meta), Mistral ou Gemma. Les scaling laws ont justifié l’émergence des small models — elles ne la contredisent pas.
La spécialisation change tout
Une grande partie des gains sur les usages réels vient du fine-tuning : entraîner un modèle une deuxième fois, sur les données spécifiques d’un secteur ou d’une entreprise. Un modèle de 7 milliards de paramètres, entraîné sur les conversations clients d’un assureur ou les documents techniques d’un fabricant industriel, peut battre un modèle généraliste dix fois plus lourd sur ces mêmes tâches. Les scaling laws n’ont strictement rien à dire sur cela — elles ne mesurent que l’entraînement initial, pas la spécialisation.
Faire tourner le modèle, c’est là que ça coûte
Faire tourner un modèle de 400 milliards de paramètres en production, c’est plusieurs centaines d’euros pour mille requêtes. Un modèle de 3 milliards tourne sur un ordinateur portable, parfois sans connexion internet, pour un coût proche de zéro. Pour la majorité des usages en entreprise — rédaction, résumé, classification, extraction d’information — l’écart de qualité entre les deux ne justifie pas l’écart de coût. Les scaling laws ne modélisent pas ça. Elles parlent de laboratoires, pas de factures cloud.
Vrai en laboratoire. Faux dès qu’on sort du laboratoire.
Les scaling laws établissent bien que les grands modèles dominent sur les tâches générales complexes — raisonnement multi-étapes, génération longue, compréhension de l’ambiguïté. Personne ne le conteste. Mais elles décrivent une relation valable toutes choses égales par ailleurs, dans un cadre d’entraînement général, sans prendre en compte la spécialisation, le coût d’inférence, ou le déploiement sur des usages réels.
Dire que « la science prouve que les petits modèles c’est du marketing », c’est comme dire que les études de nutrition prouvent qu’un restaurant trois étoiles est toujours supérieur à cuisiner chez soi. Vrai sur certains critères, dans certains contextes. Faux dès qu’on sort du laboratoire.
Ce qui est injustifié : prétendre qu’un modèle de 3 milliards de paramètres peut tout faire qu’un modèle de 400 milliards fait. Ce qui est parfaitement justifié : choisir un petit modèle spécialisé comme outil de travail quotidien, déployé à coût maîtrisé, sur des tâches métier définies.
Ne choisissez pas un modèle d’IA par sa taille. Choisissez-le selon la tâche, le budget d’utilisation, et la possibilité de le spécialiser sur vos données. La loi de la physique ne paie pas vos factures cloud.
Sources
Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. de las, Hendricks, L. A., Welbl, J., Clark, A., Hennigan, T., Noland, E., Millican, K., van den Driessche, G., Damoc, B., Guy, A., Osindero, S., Simonyan, K., Elsen, E., … Sifre, L. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556.
Cet article a été rédigé avec l’assistance de Claude (Anthropic). Les arguments, le cadrage éditorial et la vérification des sources sont de l’auteure.











Laisser un commentaire