Pourquoi DeepSeek ou LLaMA sont-ils bons malgré leur petite taille ?

Ils ont appliqué le principe Chinchilla : entraîner un modèle plus petit sur beaucoup plus de données, obtenant des performances proches de modèles plus grands à moindre coût d'inférence.

Que signifie performance dans le contexte des scaling laws ?

La perte cross-entropique : capacité du modèle à prédire le prochain token. Elle corrèle bien avec les performances pratiques mais nécessite souvent un fine-tuning pour des tâches spécifiques.

Qu’est-ce-que le Scaling Laws et comment l’enseigner ? #management #IA #prompts #exercices

Q: Est-ce qu'on peut continuer à scaler indéfiniment ?

Les scaling laws ne montrent pas de plafond mathématique, mais les données de qualité sont finies et les coûts énergétiques deviennent prohibitifs à très grande échelle.

Q: Les scaling laws s'appliquent-elles à tous les types d'IA ?

Établies pour les LLM, elles s'appliquent aussi aux modèles d'image et multimodaux, avec des coefficients différents selon la tâche — une régularité empirique robuste, pas une loi physique universelle.

Q: Est-ce que l'architecture du modèle change les scaling laws ?

Relativement peu. La largeur, la profondeur et les choix architecturaux ont peu d'effet à budget égal. Ce qui compte avant tout : N (paramètres), D (données) et C (compute).

📋 Dans cet article

Une analogie filée (la brigade de cuisine) pour comprendre les scaling laws sans formule
3 exercices pratiques pour ancrer les concepts — identifiés par 🏋️
3 prompts prêts à l’emploi pour explorer le sujet avec un LLM
Les 2 articles fondateurs du domaine, résumés en langage accessible
Un maillage vers les concepts connexes du blog

Vous venez d’embaucher votre premier assistant cuisinier. Résultat : correct. Vous en recrutez neuf autres, doublez votre livre de recettes, et planifiez deux fois plus d’heures d’entraînement en cuisine. Résultat : nettement meilleur. Ce qui est remarquable, c’est que cette progression n’est pas aléatoire : elle suit une courbe prévisible, presque une loi physique. Les chercheurs en IA ont découvert que leurs modèles obéissent à la même logique. C’est ce qu’on appelle les scaling laws.

Qu’est-ce qu’une scaling law ?

Niveau 1 — Tout public

Plus un modèle IA est grand, a de données et de temps d’entraînement, meilleur il devient — et on peut calculer à l’avance à quel point.

Niveau 2 — Manager / Décideur

Les scaling laws sont des équations empiriques qui prédisent la qualité d’un modèle IA en fonction de trois facteurs : la taille du modèle (nombre de paramètres), le volume de données d’entraînement, et le budget de calcul alloué. Elles transforment l’intuition « plus c’est grand, mieux c’est » en prévisions quantifiables — et permettent de planifier les investissements en infrastructure IA.

Niveau 3 — Définition académique

Les scaling laws désignent les relations en loi de puissance (power laws) entre la performance d’un modèle de langage — mesurée par la perte cross-entropique — et trois variables d’échelle : N (nombre de paramètres), D (nombre de tokens d’entraînement) et C (budget compute en FLOPs). Kaplan et al. (2020) ont montré que ces relations sont stables sur sept ordres de grandeur.

📌 Nouveau sur ces sujets ? Commencez par comprendre ce qu’est un LLM et ce que sont les tokens — les deux concepts de base pour aborder les scaling laws.

L’analogie de la brigade de cuisine

Imaginez une brigade professionnelle dans un restaurant gastronomique. Elle dispose de trois ressources pour progresser vers l’excellence : le nombre de cuisiniers dans l’équipe, le livre de recettes à disposition, et les heures d’entraînement cumulées en cuisine.

Si vous n’avez qu’un seul cuisinier, peu importe le nombre de recettes ou les heures passées — la capacité de traitement est limitée. Inversement, cent cuisiniers sans recettes ni entraînement ne produisent rien de cohérent. Ce qui crée l’excellence, c’est l’équilibre entre les trois ressources.

Les chercheurs en IA ont observé exactement le même phénomène avec leurs modèles. Plus vous augmentez les paramètres (les « cuisiniers »), les données (les « recettes ») et le temps de calcul (les « heures d’entraînement »), plus le modèle performe — et cette progression suit une courbe mathématique régulière, appelée loi de puissance. Doubler les paramètres améliore les performances d’un facteur prévisible. Doubler les données aussi. Et cette régularité tient sur des échelles considérables — de quelques millions à des centaines de milliards de paramètres.

La grande révélation de 2020 : pour la première fois, les chercheurs d’OpenAI ont montré que cette courbe ne se brise pas. On n’atteint pas de « plafond » mystérieux au-delà d’une certaine taille. Continuer à investir dans l’une ou l’autre dimension continue d’améliorer les résultats — selon des proportions calculables à l’avance.

En 2022, DeepMind ajoute une nuance décisive : si vous avez un budget cuisine fixe — disons 1 000 heures collectives — vous ne devez pas tout mettre dans le recrutement de cuisiniers. Un cuisinier très expérimenté qui a maîtrisé 500 recettes battra souvent dix cuisiniers n’en connaissant qu’une poignée. C’est le principe Chinchilla : pour un budget compute donné, scalez les données autant que les paramètres.

Les limites de cette image : une brigade de cuisine améliore la qualité de ses propres plats, dans un registre connu. Un modèle IA entraîné à plus grande échelle peut développer des capacités émergentes — des compétences qui n’existaient pas aux petites échelles, comme la résolution de problèmes logiques complexes ou la traduction de langues rares. Ces sauts qualitatifs imprévisibles ne sont pas capturés par notre analogie.

Les trois ressources déconstruites

Terme technique	Dans la brigade	En réalité (sans jargon)
Paramètres (N)	Nombre de cuisiniers	Poids du réseau : la « mémoire » et la capacité de traitement du modèle. GPT-3 en contient 175 milliards.
Données (D)	Richesse du livre de recettes	Nombre de tokens vus pendant l’entraînement. Les grands modèles actuels sont entraînés sur plusieurs billions de tokens.
Compute (C)	Heures cumulées d’entraînement en cuisine	FLOPs (opérations à virgule flottante) : la puissance de calcul consommée. Se mesure en milliers de GPU-heures et en millions de dollars.
Loi de puissance	Courbe prévisible de progression de la brigade	Relation mathématique stable : doubler N améliore la performance d’un facteur constant. Idem pour D et C. Cette régularité tient sur sept ordres de grandeur.
Optimum Chinchilla	Équilibre idéal cuisiniers / recettes pour un budget temps donné	Pour un budget compute fixe, N et D doivent croître proportionnellement. Négliger les données au profit des paramètres est du gaspillage de calcul.

🏋️ Exercice 1 — Identifier les trois ressources

Lisez cette annonce fictive : « Notre modèle compte 70 milliards de paramètres, entraîné sur 1 400 milliards de tokens avec un budget de 6 400 GPU A100-heures. » Identifiez N, D et C. Puis vérifiez : ce modèle respecte-t-il le ratio Chinchilla (environ 20 tokens par paramètre) ? Que cela implique-t-il sur sa qualité attendue ?

Ce que les scaling laws changent pour vous

1. Comprendre la course aux modèles. Quand OpenAI annonce GPT-5 ou Google Gemini Ultra, vous savez que la progression n’est pas magique : c’est de l’investissement massif en paramètres, données et calcul, selon des courbes connues à l’avance. La compétition IA est d’abord une compétition de ressources.

2. Évaluer les promesses des « petits modèles ». Un modèle de 7 milliards de paramètres sera toujours limité par les scaling laws — à données et compute équivalents, il performera moins qu’un modèle de 70 milliards. Il peut être suffisant pour votre usage, mais comparer des benchmarks sans regarder N, D et C, c’est comparer des brigades de tailles radicalement différentes.

3. Comprendre pourquoi le fine-tuning ne remplace pas l’échelle. Le fine-tuning ajoute une spécialisation sur un domaine, mais ne modifie pas la capacité fondamentale du modèle. Pour gagner 10 % de performance sur toutes les tâches génériques, il faut scaler — pas seulement spécialiser.

4. Anticiper les coûts réels. Un modèle deux fois plus grand coûte bien plus qu’deux fois plus à entraîner — et à inférer. Les scaling laws permettent aux acheteurs de solutions IA d’interroger leurs fournisseurs sur les choix de dimensionnement et d’interpréter les compromis coût/performance de manière éclairée.

5. Lire les benchmarks avec distance critique. Un modèle peut surpasser un concurrent parce qu’il est plus grand, ou parce qu’il a été mieux entraîné (meilleur ratio N/D). Les scaling laws vous donnent un cadre pour distinguer les deux — et éviter de payer pour de la taille inutile.

🏋️ Exercice 2 — Analyser une décision d’investissement

Un fournisseur vous propose deux modèles au même budget : A (100 Md paramètres, 500 Md tokens d’entraînement) et B (50 Md paramètres, 2 000 Md tokens). D’après le principe Chinchilla, lequel a probablement le meilleur rapport performance/compute ? Justifiez en deux phrases. Quel autre critère devriez-vous vérifier avant de décider ?

Questions des étudiants

Est-ce qu’on peut continuer à scaler indéfiniment ? ▼

Les scaling laws actuelles ne montrent pas de « mur » mathématique — la courbe ne s’aplatit pas. Mais deux limites pratiques émergent : les données de qualité disponibles sur internet sont finies, et les coûts énergétiques et financiers deviennent vite prohibitifs. L’entraînement de GPT-4 aurait coûté plusieurs centaines de millions de dollars. Continuer à scaler est techniquement possible mais économiquement contraint.

Les scaling laws s’appliquent-elles à tous les types d’IA ? ▼

Établies pour les modèles de langage, elles s’appliquent aussi aux modèles d’image et aux architectures multimodales, avec des coefficients différents selon la tâche. Ce n’est pas une loi universelle comme la gravité — c’est une régularité empirique robuste qui guide les décisions d’investissement, pas une équation physique définitive.

Pourquoi DeepSeek ou LLaMA sont-ils bons malgré leur taille modeste ? ▼

Ils ont appliqué le principe Chinchilla : entraîner un modèle plus petit sur beaucoup plus de données. LLaMA 2 (13 Md paramètres) a été entraîné sur plus de 2 000 Md tokens — bien au-delà de ce que recommandait la pratique de l’époque. Résultat : performances proches de modèles bien plus grands, à une fraction du coût d’inférence. Le fine-tuning ultérieur affine encore la spécialisation.

Est-ce que l’architecture du modèle change les scaling laws ? ▼

Relativement peu — c’est l’un des résultats les plus surprenants de Kaplan et al. La largeur, la profondeur, le nombre de têtes d’attention : ces choix ont peu d’effet sur la performance finale à budget égal. Ce qui détermine la performance avant tout : N, D et C. L’architecture est une variable secondaire.

Que signifie exactement « performance » dans ce contexte ? ▼

Dans les articles fondateurs, elle est mesurée par la perte cross-entropique : la capacité du modèle à prédire le prochain token dans un texte. C’est une mesure technique. Elle corrèle bien avec les performances pratiques (raisonnement, code, résumé), mais pas parfaitement. Un modèle peut avoir une excellente perte cross-entropique et rester décevant pour une tâche spécifique sans fine-tuning.

🏋️ Exercice 3 — Relier au monde réel

Recherchez les caractéristiques officiellement publiées d’un grand modèle de votre choix (Claude, Gemini, Mistral…). Construisez le « bilan de brigade » : quelles valeurs N, D, C sont explicitement communiquées ? Lesquelles sont absentes — et pourquoi, selon vous ? Que dit cette opacité sur la compétition dans l’industrie IA ?

Les deux articles qui ont posé les bases

Article 1 ✅ — Le papier fondateur (2020)

En janvier 2020, une équipe d’OpenAI publie un article qui va redéfinir la recherche en IA. Les chercheurs entraînent des dizaines de modèles de tailles variées et mesurent leur performance avec une précision inédite. Leur découverte : la performance suit des lois de puissance stables sur sept ordres de grandeur — de quelques millions à des centaines de milliards de paramètres.

L’idée centrale : il n’est pas nécessaire d’avoir une intuition sur la « bonne » taille d’un modèle. On peut calculer le gain attendu avant même d’entraîner. Ce résultat a directement influencé la conception de GPT-3 (175 Md paramètres), développé en parallèle par la même équipe.

Ce qui a changé le domaine : pour la première fois, le développement de modèles IA devient une ingénierie prévisible plutôt qu’une série d’expériences en aveugle. La recherche en IA acquiert une boussole quantitative.

Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling laws for neural language models. arXiv:2001.08361.

Article 2 ✅ — Chinchilla : l’équilibre optimal (2022)

En mars 2022, des chercheurs de DeepMind remarquent que les grandes entreprises, inspirées par Kaplan et al., ont massivement investi dans la taille des modèles — au détriment des données d’entraînement. Ils entraînent plus de 400 modèles sur des volumes très variables et formulent une nouvelle loi : pour un budget compute fixe, paramètres et tokens d’entraînement doivent croître proportionnellement.

Ils valident leur hypothèse avec Chinchilla : 70 milliards de paramètres entraîné sur 4 fois plus de données que Gopher (280 Md paramètres), avec le même budget. Chinchilla surpasse Gopher, GPT-3, Jurassic-1 et Megatron-NLG sur la grande majorité des benchmarks.

Ce qui a changé le domaine : la communauté comprend que la course aux grands modèles était fondamentalement sous-optimale. Le ratio paramètres/données devient la nouvelle variable stratégique — et LLaMA, Mistral, DeepSeek en tireront directement les leçons.

Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., … & Sifre, L. (2022). Training compute-optimal large language models. arXiv:2203.15556. NeurIPS 2022.

3 prompts pour explorer avec un LLM

Copiez-collez ces prompts dans Claude, ChatGPT ou Mistral. Conçus pour un apprenant qui découvre les scaling laws.

Prompt 1 — Explorer le concept

Explique-moi les scaling laws en IA comme si j’étais un manager sans formation technique. Utilise une métaphore tirée du monde des affaires. Dis-moi en quoi cela m’aide à comprendre pourquoi GPT-4 est plus performant que GPT-3.

🎯 Objectif : se faire expliquer le concept avec des mots familiers | 📚 Ce qu’on apprend : la relation entre taille et performance, vue sous un angle décisionnel

Prompt 2 — Tester sa compréhension

Je viens de lire que les scaling laws relient performance, paramètres, données et compute. Pose-moi 3 questions à choix multiples pour vérifier que j’ai bien compris. Donne-moi la réponse correcte et une explication courte après chaque question.

🎯 Objectif : auto-évaluation active | 📚 Ce qu’on apprend : à distinguer N, D et C et leur rôle respectif dans la performance

Prompt 3 — Cas pratique management

Mon entreprise hésite entre utiliser un petit modèle IA en local (7 milliards de paramètres) et appeler l’API d’un grand modèle (70 milliards de paramètres). D’après ce que tu sais des scaling laws et du principe Chinchilla, quels critères dois-je prendre en compte pour faire ce choix ? Réponds en 5 points actionnables.

🎯 Objectif : appliquer les scaling laws à une décision concrète | 📚 Ce qu’on apprend : les compromis coût/performance dans le choix d’un modèle IA

Pour aller plus loin sur ce blog

→ Qu’est-ce qu’un LLM ? — le type de modèle auquel les scaling laws s’appliquent le mieux
→ Comprendre les tokens — la brique de base des données d’entraînement (le « D » des scaling laws)
→ Le deep learning expliqué — pour comprendre ce que « paramètres » signifie vraiment
→ Fine-tuning — quand scaler ne suffit pas, et pourquoi spécialiser son modèle
→ Le mécanisme d’attention — l’architecture sur laquelle les scaling laws ont d’abord été mesurées

Note méthodologique : cet article a été rédigé avec l’assistance de Claude (Anthropic) selon le gabarit pédagogique mmg-gabarit-ia2 v1.2. Les références académiques ont été vérifiées manuellement (arXiv + NeurIPS 2022). Les analogies et le cadrage pédagogique sont originaux. Maria Mercanti-Guérin, IAE Paris-Sorbonne, 2025.