Qu’est-ce qu’un modèle IA ? Claude, ChatGPT, Gemini, DeepSeek expliqués Exercices et Prompts

Q: Un modèle IA, c'est pareil qu'un algorithme ?

Un algorithme traditionnel suit des règles explicites. Un modèle IA apprend ses propres règles implicites à partir de données massives.

Q: Un modèle plus grand, c'est forcément meilleur ?

Non. La qualité des données, l'architecture et l'alignement comptent autant que le nombre de paramètres. DeepSeek R1 l'a prouvé en 2025.

Q: Quelle différence entre un modèle et une application comme ChatGPT ?

ChatGPT est l'application, GPT-4o est le modèle. Claude est le modèle, claude.ai est l'application. Un modèle peut alimenter plusieurs applications.

Q: Est-ce qu'un modèle apprend quand je lui parle ?

Non de façon permanente. Le contexte de la conversation est retenu pendant la session, mais les paramètres restent figés après l'entraînement.

Imaginez deux chefs cuisiniers devant vous. L’un sort d’une grande école parisienne, formé pendant quatre ans sur des milliers de recettes françaises classiques, avec un mentor obsédé par la rigueur et la sécurité alimentaire. L’autre a étudié dans une école de Shenzhen, sur un corpus de textes dix fois plus vaste, avec une méthode d’apprentissage radicalement plus économique. Vous leur posez la même question : « Que dois-je cuisiner ce soir avec des courgettes ? » Ils vous répondent tous les deux — mais leurs réponses sont différentes. Pas parce que l’un est « meilleur » que l’autre. Parce qu’ils ont été formés différemment. Un modèle IA, c’est exactement ça.

Qu’est-ce qu’un modèle IA ? Trois façons de le dire

Niveau 1 — Tout public

Un modèle IA est un programme qui a appris à répondre à des questions ou à réaliser des tâches en « lisant » des milliards de textes. Il ne suit pas de règles écrites par un humain : il a développé ses propres intuitions à partir des exemples.

Niveau 2 — Manager / Décideur

Un modèle IA est une représentation mathématique compressée de patterns extraits de données massives. Exposé à votre question (l’input), il génère une réponse (l’output) en calculant les suites de mots les plus probables selon ce qu’il a appris. Sa valeur dépend de la qualité de ses données d’entraînement, de son architecture et de sa phase d’alignement.

Niveau 3 — Définition académique

Un large language model (LLM) est un réseau de neurones de type Transformer, pré-entraîné sur un corpus textuel massif par prédiction du token suivant (next-token prediction), dont les paramètres stockent une représentation distribuée du savoir extrait. L’inférence consiste à décoder une séquence de tokens à partir d’un prompt, selon une distribution de probabilité conditionnelle apprise.

Pour aller plus loin sur les briques techniques : l’article sur les grands modèles de langage (LLM) et celui sur les tokens complètent cette introduction.

L’analogie du chef cuisinier : comment un modèle apprend

Analogie-maîtresse : Former un modèle IA, c’est comme former un chef cuisinier dans une grande école — sauf que la formation dure quelques semaines, les textes étudiés se comptent en milliards, et le chef ne dort jamais.

La formation : lire pour intérioriser

Votre futur chef arrive à l’école le premier jour sans rien savoir. Pendant sa formation, on lui fait lire, goûter et analyser des millions de recettes. Il n’en mémorise pas chacune. Il intériorise des patterns : « quand il y a de la crème et des champignons, l’ajout de thym fonctionne presque toujours », « cette sauce demande de la réduction avant l’assaisonnement ». Un réseau de réflexes et d’intuitions se forme progressivement.

Un modèle IA fait exactement pareil : il lit des milliards de textes et apprend à prédire « quel mot vient le plus probablement ensuite ? ». Ce faisant, il intègre les structures du langage, les faits, les raisonnements, les styles d’écriture. L’ensemble de ce savoir compressé se retrouve dans ses paramètres — des centaines de milliards de petits réglages numériques ajustés pendant l’entraînement. Pour comprendre comment fonctionne ce mécanisme de prédiction, lisez l’article sur le deep learning.

La spécialisation : apprendre à bien se tenir

Après sa formation générale, notre chef entre en stage chez un chef étoilé. Ce mentor lui donne des retours précis sur chaque plat : « trop salé », « présentation parfaite », « ne jamais servir ça à un client ». Le chef ajuste, corrige, affine. Les modèles traversent une phase similaire, appelée fine-tuning avec RLHF (Reinforcement Learning from Human Feedback) : des évaluateurs humains notent les réponses, et le modèle apprend à produire des réponses utiles, sûres et bien formulées.

Le service : improviser à partir de ce qu’on sait

Le chef est maintenant en poste. Un client commande « quelque chose de léger avec des courgettes ». Le chef ne repart pas aux fourneaux depuis zéro : il mobilise son expérience et improvise une réponse cohérente. C’est l’inférence : vous posez une question (le prompt), le modèle génère une réponse token par token, en choisissant à chaque étape le fragment de texte le plus probable selon tout ce qu’il a intériorisé.

Les limites de cette image

Notre chef sait qu’il ne connaît pas certains plats — il peut l’admettre. Un modèle, lui, ne sait pas ce qu’il ne sait pas : il peut générer une réponse fluide et convaincante même sur un sujet où ses données étaient erronées ou manquantes. C’est ce qu’on appelle une hallucination. Autre limite : le chef enrichit sa cuisine toute sa vie. Un modèle, lui, est figé à la date de son dernier entraînement — il n’apprend pas en vous répondant.

Les 5 composants d’un modèle — dans notre analogie

Composant 1

Données d’entraînement

Dans l’analogie : les millions de recettes, dégustations et cours que le chef a étudiés pendant sa formation. En réalité : les textes issus du web, de livres, d’articles scientifiques, de code source — la « matière première » qui forge les intuitions du modèle.

Composant 2

Paramètres (poids)

Dans l’analogie : le « palais » du chef et ses réflexes — tout ce qu’il a intériorisé sans pouvoir toujours l’expliquer. En réalité : les milliards de valeurs numériques ajustées pendant l’entraînement. GPT-4 en aurait environ 1 800 milliards ; Claude Sonnet et Gemini 1.5 Pro, plusieurs centaines de milliards.

Composant 3

Architecture Transformer

Dans l’analogie : la méthode pédagogique de l’école — la façon dont elle apprend au chef à percevoir un plat couche par couche (couleur, odeur, texture, goût). En réalité : la structure du réseau de neurones. Depuis 2017, tous les grands modèles reposent sur le Transformer et son mécanisme d’attention.

Composant 4

Fenêtre de contexte

Dans l’analogie : combien de plats, de commandes et d’échanges le chef peut tenir en mémoire active pendant un service sans les oublier. En réalité : la quantité de texte qu’un modèle peut lire en une seule fois. Claude atteint jusqu’à 1 million de tokens — l’équivalent d’un roman entier. ChatGPT-4o et Gemini 2.5 Pro proposent des fenêtres comparables.

Composant 5

Alignement (RLHF)

Dans l’analogie : les mois passés avec le chef étoilé, qui corrige chaque plat. En réalité : le Reinforcement Learning from Human Feedback — la phase où des évaluateurs humains notent les réponses pour rendre le modèle plus utile, moins dangereux, plus honnête. C’est ce qui distingue un modèle brut d’un assistant utilisable.

Claude, ChatGPT, Gemini, DeepSeek : quatre chefs, quatre écoles

Les quatre grands modèles que vous croisez au quotidien ont tous été formés sur la même architecture de base (le Transformer), mais dans des « grandes écoles » différentes, avec des philosophies de formation très différentes. Comprendre ces différences vous aide à choisir le bon outil selon votre usage.

Anthropic — Claude (Sonnet, Opus, Haiku)

Le chef formé à la rigueur et à l’éthique

Claude est formé par Anthropic avec une approche dite d’ »IA constitutionnelle » : le modèle apprend à raisonner sur ses propres valeurs avant de répondre. Points forts : raisonnement long, analyse de documents volumineux (fenêtre de 1M tokens), refus cohérent des demandes problématiques, style clair et dense. Usage idéal : analyse de documents complexes, rédaction structurée, recherche nécessitant du jugement.

OpenAI — ChatGPT / GPT-4o

Le chef polyvalent et le plus connu

GPT-4o d’OpenAI est le modèle le plus utilisé dans le monde, avec une intégration native voix/image/texte. Points forts : multimodalité poussée, écosystème d’intégrations (Microsoft 365, plugins), génération d’images via DALL·E 3. Usage idéal : usage généraliste quotidien, génération d’images, scripting, automatisation avec outils Microsoft.

Google DeepMind — Gemini (Flash, Pro, Ultra)

Le chef nourri aux données Google

Gemini a un avantage structurel unique : il est entraîné et connecté à l’écosystème Google (Search, Gmail, Docs, Maps, YouTube). Gemini 2.5 Pro excelle sur les benchmarks de raisonnement et de code. Points forts : intégration Google Workspace native, traitement de vidéos longues, performances de raisonnement élevées. Usage idéal : recherche augmentée, productivité Google, analyse multimodale.

DeepSeek AI — DeepSeek R1/V3

Le chef prodige de l’efficacité

DeepSeek est un modèle chinois (DeepSeek AI, Hangzhou) qui a surpris le monde début 2025 : des performances comparables à GPT-4 avec un budget d’entraînement estimé dix fois inférieur. Il utilise une architecture MoE (Mixture of Experts) qui n’active qu’une fraction du réseau à la fois. Points forts : open source, raisonnement mathématique, code, efficacité computationnelle. À noter : déployé depuis la Chine, avec des contraintes de censure sur certains sujets politiques.

Ces différences expliquent pourquoi la même question posée à Claude et à ChatGPT peut donner des réponses de styles très différents — pas parce que l’un « sait plus » que l’autre, mais parce que leurs données, leurs architectures et leurs processus d’alignement les ont orientés différemment. Pour aller encore plus loin, découvrez comment les agents IA et le RAG augmentent encore davantage ces modèles.

En pratique, pour un manager ou un étudiant en gestion :

Vous analysez de longs documents ou rapports → Claude (contexte 1M tokens, raisonnement dense)
Vous travaillez dans Google Workspace au quotidien → Gemini (intégration native)
Vous avez besoin de générer des images ou d’automatiser avec des outils Microsoft → ChatGPT / GPT-4o
Vous faites du code ou de la recherche open source → DeepSeek (gratuit, performant sur le raisonnement)

FAQ — Les questions que tout le monde se pose

Un modèle IA, c’est pareil qu’un algorithme ? ▼

Pas tout à fait. Un algorithme traditionnel suit des règles explicites écrites par un humain : « si X alors Y ». Un modèle IA apprend ses propres règles implicites à partir de données. C’est la différence entre un cahier de recettes écrit à la main et un chef qui a goûté tellement de plats qu’il sait intuitivement ce qui fonctionne — sans pouvoir toujours expliquer pourquoi. La discipline qui étudie cette façon d’apprendre s’appelle le machine learning.

Un modèle plus grand, c’est forcément meilleur ? ▼

Non. La taille (nombre de paramètres) est une variable parmi d’autres. La qualité des données d’entraînement, l’architecture et l’alignement comptent autant. DeepSeek R1 l’a démontré en 2025 : un modèle peut rivaliser avec des mastodontes grâce à une architecture plus efficace. Des modèles « petits » comme Claude Haiku ou GPT-4o mini sont souvent suffisants pour des tâches simples — et bien moins coûteux à l’usage.

Peut-on faire confiance à ce qu’un modèle dit ? ▼

Avec prudence. Un modèle génère des réponses statistiquement plausibles — pas nécessairement vraies. Il peut se tromper sur des faits, inventer des références ou mélanger des informations. C’est pour ça que les usages professionnels sérieux combinent les modèles avec des sources vérifiées via le RAG. Pensez à votre chef cuisinier : excellent pour l’improvisation, mais à relire avant d’envoyer à un client exigeant.

Quelle différence entre un modèle et une application comme ChatGPT ? ▼

ChatGPT est une application web — l’interface que vous utilisez. GPT-4o est le modèle qui tourne derrière. De la même façon, Claude est le modèle ; claude.ai est l’application. Un seul modèle peut alimenter plusieurs applications. Et certains modèles (Claude Sonnet, GPT-4o) sont accessibles via une API pour que d’autres entreprises intègrent l’IA dans leurs propres produits.

Est-ce qu’un modèle apprend quand je lui parle ? ▼

Non — pas de façon permanente. Pendant votre conversation, le modèle tient compte de tout ce que vous avez échangé : c’est la fenêtre de contexte. Mais une fois la session terminée, il « oublie ». Ses paramètres — le fruit de son entraînement — restent figés. Pour qu’un modèle mémorise vraiment quelque chose, il faut passer par le fine-tuning ou un système externe comme le RAG.

Les 2 articles qui ont tout fondé

Article 1 ✅ — « Attention Is All You Need » (2017)
Contexte : En juin 2017, une équipe de Google publie à NeurIPS un article qui va redéfinir toute l’architecture de l’IA moderne. Jusqu’alors, les modèles de langage reposaient sur des réseaux récurrents (LSTM, GRU) — une forme de traitement séquentiel, lent et difficile à paralléliser sur GPU.
Idée centrale : Supprimer totalement la récurrence et la remplacer par un mécanisme d’attention généralisé. Chaque token « regarde » tous les autres tokens du texte simultanément pour pondérer leur importance. Simple en principe, révolutionnaire en pratique.
Pourquoi ça a tout changé : Claude, ChatGPT, Gemini, DeepSeek — tous sont des variantes du Transformer. Sans ce papier de 8 pages, aucun d’entre eux n’existerait sous sa forme actuelle. L’article est cité plus de 100 000 fois.
Référence APA : Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008. https://arxiv.org/abs/1706.03762

Article 2 ✅ — « Language Models are Few-Shot Learners » / GPT-3 (2020)
Contexte : En mai 2020, OpenAI publie l’article décrivant GPT-3 — à l’époque le plus grand modèle de langage jamais entraîné, avec 175 milliards de paramètres. C’est le premier à montrer qu’au-delà d’une certaine taille, quelque chose d’inattendu se produit.
Idée centrale : Un modèle suffisamment grand peut réaliser des tâches qu’on ne lui a pas explicitement apprises — juste à partir de quelques exemples dans le prompt (le « few-shot learning »). Il n’a pas besoin d’être ré-entraîné pour chaque nouvelle tâche : la taille crée une forme d’émergence.
Pourquoi ça a tout changé : Cet article a démontré que les LLM sont des « généralistes adaptatifs » — posant les bases de ChatGPT, Claude et tous leurs successeurs. Il a également lancé la course aux paramètres qui structure encore aujourd’hui le secteur.
Référence APA : Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901. https://arxiv.org/abs/2005.14165

3 prompts pour explorer les modèles IA par vous-même

Je suis étudiant(e) en master de management. Explique-moi en termes simples ce qu’est un modèle de langage IA, à quoi servent ses « paramètres », et pourquoi des modèles différents (Claude, ChatGPT, Gemini) donnent des réponses différentes à la même question.

🎯 Objectif : Explorer | 📚 Ce qu’on apprend : Ce que fait concrètement un modèle, sans jargon technique.

Je vais te poser la même question deux fois. D’abord réponds comme si tu avais été entraîné principalement sur des données scientifiques ; puis comme si tu avais été entraîné principalement sur des avis de consommateurs. La question est : « Faut-il manger moins de viande rouge ? » Explique ensuite pourquoi les deux réponses seraient différentes selon les données d’entraînement.

🎯 Objectif : Tester sa compréhension | 📚 Ce qu’on apprend : Comment les données d’entraînement influencent les réponses d’un modèle.

Je suis responsable marketing dans une PME. J’hésite entre Claude, ChatGPT et Gemini pour automatiser la rédaction de nos fiches produits. Donne-moi 3 critères concrets pour choisir entre ces modèles selon mon cas d’usage — sans me donner de réponse définitive, je veux comprendre la logique de choix.

🎯 Objectif : Cas pratique management | 📚 Ce qu’on apprend : Appliquer les différences entre modèles à une décision professionnelle réelle.

Cet article vous a été utile ?

Partagez-le avec un étudiant ou un collègue qui découvre l’IA.

Pas encore abonné(e) ?

Chaque semaine, un concept IA expliqué sans jargon pour les managers et étudiants en gestion. Pas de newsletter qui monétise vos données.

Je m’abonne gratuitement →

Note méthodologique : Cet article a été produit avec l’assistance de Claude Sonnet (Anthropic) selon le gabarit pédagogique blog-gabarit-ia2 v1.2 de mariamercantiguerin.com. Les références académiques (Vaswani et al., 2017 ; Brown et al., 2020) ont été vérifiées via web search. L’analogie du chef cuisinier et la structure éditoriale sont originales.