Bullshit Detector

« On bloque la Wayback Machine pour protéger nos contenus contre l’IA » — vraiment ?

Depuis 2025, 241 sites d’information bloquent l’accès de l’Internet Archive à leurs pages. L’argument : empêcher les IA d’aspirer leurs contenus via la mémoire du web. Problème : ce récit défensif masque une logique de négociation commerciale — et fait une victime collatérale, le bien public qu’est la mémoire numérique.

LE CLAIM

« Nous bloquons la Wayback Machine parce qu’elle permet aux entreprises d’IA d’accéder sans autorisation à nos contenus pour entraîner leurs modèles. »

— porte-parole du New York Times, confirmant un « hard block » du crawler d’archive.org à Nieman Lab (fin 2025). Argument repris par The Guardian, Gannett/USA Today, Le Monde, Le Huffington Post, Reddit, et une bonne partie du Financial Times.

Ce que la Wayback Machine est réellement

Avant de juger l’argument, rappelons ce qu’on bloque. La Wayback Machine, lancée en 1996 par l’Internet Archive (une ONG américaine 501(c)(3), bibliothèque fédérale de dépôt), archive le web public depuis bientôt trente ans. Elle a franchi le cap du trillion de pages archivées en octobre 2025.

Concrètement, elle sert à :

Vérifier ce qu’un site disait hier. Tracer les modifications silencieuses, les « stealth edits » — pratique devenue courante chez certains éditeurs et au sein de sites gouvernementaux.
Alimenter la preuve judiciaire. L’Internet Archive a fourni plus de 450 affidavits en 2023 dans des procédures où des captures de la Wayback Machine servaient de preuves recevables (arrêt United States v. Bansal, Third Circuit).
Soutenir le journalisme d’investigation. Dernier exemple en date cité par Nieman Lab : une enquête publiée par USA Today documentant les politiques de détention de l’ICE sous Trump — reconstituée grâce à d’anciennes captures d’archive.org. Par le même groupe Gannett qui, par ailleurs, bloque la Wayback Machine.
Conserver ce que les rédactions ne conservent plus. Depuis la disparition des archives papier locales, il n’existe aucune obligation fédérale (ni en France, ni aux États-Unis) de préserver le contenu journalistique en ligne.

Les faits : l’ampleur du blocage

L’étude de référence a été publiée par Nieman Lab (Harvard) fin janvier 2026, en partenariat avec la start-up Originality AI. Méthodologie : analyse des fichiers robots.txt de 1 167 sites d’information dans neuf pays.

Le blocage en chiffres

241 sites sur 1 167 analysés bloquent explicitement au moins un des quatre robots de l’Internet Archive.
23 grands médias bloquent ia-archivebot (NYT, USA Today, Guardian, Financial Times, Le Monde…).
87 % de ces blocages proviennent de titres du seul groupe Gannett (USA Today Co., plus de 200 médias).
240 sur 241 bloquent également Common Crawl, autre archive à but non lucratif.
–87 % de snapshots : la Wayback Machine a capturé 87 % de moins de homepages de 100 grands médias entre mai et octobre 2025, comparé au premier semestre 2025.

L’écart : trois incohérences qui vendent la mèche

L’argument « protection contre l’IA » paraît recevable en surface. Trois faits le font vaciller.

① Les éditeurs bloquants utilisent eux-mêmes la Wayback Machine pour enquêter

L’exemple Gannett/ICE (USA TodayCo.) cité plus haut n’est pas une exception. Mark Graham, directeur de la Wayback Machine, le souligne à Wired : ces rédactions s’appuient sur la ressource qu’elles ferment par ailleurs. Le journalisme d’investigation utilise la mémoire du web comme infrastructure de preuve, y compris chez les mêmes groupes qui la verrouillent depuis leur service licensing.

② Les éditeurs bloquants n’ont jamais documenté d’abus

Robert Hahn, responsable licensing chez The Guardian, a expliqué à Nieman Lab que le journal bloque la Wayback Machine sans avoir constaté de cas concret de scraping IA via ce canal. La décision est préventive, fondée sur une hypothèse. Or l’Internet Archive ne livre pas d’accès en vrac : il existe un rate-limiting interne, un filtrage réseau via Cloudflare, et des API délibérément restreintes.

L’épisode de référence invoqué — la panne d’archive.org en mai 2023, déclenchée par une entreprise d’IA qui envoyait des dizaines de milliers de requêtes par seconde depuis AWS — s’est réglé par un blocage d’IP et un don de l’entreprise incriminée. Ce n’est pas la Wayback Machine qui a servi de backdoor : c’est son propre service public qui a été attaqué par un acteur IA.

③ Les mêmes éditeurs signent des accords de licence avec les IA

C’est l’incohérence la plus parlante. Selon les données compilées par WinBuzzer et Nieman Lab, Gannett — le plus gros bloqueur de la Wayback Machine, responsable de 87 % des blocages — a annoncé en 2025 avoir stoppé 75 millions de bots IA. Parallèlement, son PDG Mike Reed confirmait la signature, en juillet 2025, d’un accord de licence avec Perplexity.

Autrement dit : on bloque gratuitement en masse pour ensuite vendre au détail. La position de négociation s’améliore quand l’accès libre est rendu impossible. Le vocabulaire de la « protection du droit d’auteur » habille un positionnement de marché.

Le chercheur Michael Nelson (Old Dominion University) résume la mécanique : Common Crawl et l’Internet Archive, considérés comme les « bons élèves » de la préservation du web, paient les pots cassés d’une guerre qui vise d’autres acteurs. Dans cette logique, les bibliothèques deviennent des dommages collatéraux.

Ce qu’on perd réellement

Trois conséquences concrètes, déjà mesurables.

La traçabilité des modifications d’articles. Quand un titre est « discrètement » mis à jour — un chiffre revu, un paragraphe supprimé, une citation reformulée — la Wayback Machine était jusqu’à présent le seul dispositif neutre de comparaison. Sans archive externe indépendante, c’est l’éditeur lui-même qui devient l’unique gardien de ce qu’il a écrit. La tentation est prévisible.

La capacité d’investigation transversale. Des pans entiers de sites disparaissent sans prévenir : fermetures de titres, rachats éditoriaux, changements de CMS, contenus payants archivés uniquement en interne. Sans la Wayback Machine, une recherche académique ou journalistique qui porte sur plusieurs années devient structurellement impossible pour les périodes récentes.

Un biais historique croissant. Comme le note Mike Masnick (Techdirt), si les grands titres de qualité sortent des archives publiques tandis que les contenus de qualité médiocre y restent, la mémoire du web devient biaisée vers le bas. L’histoire numérique sera écrite par les sites qui n’ont pas eu les moyens juridiques de se retirer.

Le cadre juridique : un combat mal ciblé

Le contexte ne rend pas l’inquiétude des éditeurs illégitime. L’entraînement des grands modèles de langage sur des corpus non autorisés est un problème réel et massif :

Anthropic a accepté en septembre 2025 de verser 1,5 milliard de dollars pour clore le recours collectif Bartz v. Anthropic — entraînement de Claude sur des livres issus de bases piratées type LibGen.
En France, le SNE, la SGDL et le SNAC ont assigné Meta devant le TGI de Paris en mars 2025, pour l’usage du corpus Books3 dans l’entraînement de Llama.
L’Electronic Frontier Foundation rappelle que la jurisprudence américaine reconnaît depuis longtemps le caractère transformatif de la copie à fin d’indexation — argument qui, à ce jour, ne protège ni Anthropic, ni Meta, ni OpenAI de manière garantie.

Mais le combat contre ces usages se joue devant les tribunaux (procès NYT vs Perplexity en cours), dans les licences négociées, et dans la régulation européenne (AI Act, Code de conduite GPAI). Il ne se joue pas en amputant la bibliothèque publique du web.

L’Internet Archive avait déjà été condamné en 2024 dans l’affaire Hachette v. Internet Archive pour sa « controlled digital lending » — cette bataille-là est tranchée. Mais la Wayback Machine n’a pas été visée par cette décision : son statut d’outil de préservation reste distinct juridiquement, y compris dans les États où la question de l’usage IA se pose.

Le verdict

⚠️ Argument partiellement vrai — mobilisé pour une mauvaise raison

Le risque de scraping IA via des archives publiques est réel. Mais le blocage de la Wayback Machine par les grands éditeurs n’est pas une mesure de protection proportionnée : il est préventif sans preuve d’abus documenté, il cible une infrastructure d’intérêt public qui lutte déjà activement contre l’extraction massive, et il s’accompagne — chez les mêmes acteurs — d’accords commerciaux signés avec les IA qu’on prétend combattre. Le discours « copyright » habille une stratégie de négociation. La victime, c’est la mémoire du web.

Ce qu’on peut faire concrètement

Pour un enseignant, un chercheur ou un professionnel qui dépend de la Wayback Machine :

Archiver manuellement les sources importantes dès leur consultation, via la fonction « Save Page Now » d’archive.org. Le bouton reste accessible même pour les sites qui bloquent le crawler automatique — vous créez alors votre propre capture datée.
Utiliser des archives complémentaires : archive.today (basé en Europe, logique et politique différentes), la Bibliothèque nationale de France (dépôt légal du web français depuis 2006, consultable en bibliothèque), Perma.cc (pour les citations académiques et juridiques).
Lire et signer les pétitions de soutien. La lettre ouverte coordonnée par Fight for the Future, l’EFF et Public Knowledge (mars 2026) a rassemblé plus de 100 signatures de journalistes — de Rachel Maddow à Taylor Lorenz — et reste consultable comme document de référence. Côté grand public, la pétition « Defend the Internet Archive » sur Change.org totalise plus de 60 000 signatures et est toujours ouverte.
Documenter les blocages dans vos propres travaux : quand la Wayback Machine ne capture plus un site, le signaler dans votre méthodologie. C’est un signal utile pour la recherche informétrique sur l’évolution des archives publiques.

Ce que ça nous apprend sur le « bullshit » des discours de protection

Le pattern observable ici est générique. Chaque fois qu’un acteur commercial invoque une cause d’intérêt général (protection du droit d’auteur, sécurité, lutte contre la fraude) pour justifier une restriction d’accès, il faut poser trois questions simples :

L’abus documenté existe-t-il ? Ou est-ce préventif, fondé sur une hypothèse ?
L’acteur bénéficie-t-il commercialement de la restriction ? Ou agit-il contre ses propres intérêts ?
La mesure touche-t-elle la bonne cible ? Ou crée-t-elle un dommage collatéral sur un tiers qui n’est pas responsable du problème ?

Dans le cas de la Wayback Machine : abus non documenté par Guardian, bénéfice commercial documenté chez Gannett (accord Perplexity), cible inadéquate (l’Internet Archive n’est pas un acteur IA). Les trois cases cochées. Le verdict s’écrit tout seul.

La mémoire d’Internet n’est pas un actif négociable. C’est une infrastructure de la vérifiabilité publique. Et pour l’instant, elle est financée par une ONG de trente personnes à San Francisco.

Pour aller plus loin — une autre fin d’Internet, en 2018

J’avais consacré en 2018 un billet au roman Extinction de Matthew Mather, qui imaginait la disparition brutale d’Internet par cyberguerre : rupture des approvisionnements en quelques jours, effondrement des centrales, des systèmes d’eau, propagation de fake news dans une population clouée chez elle. À relire aujourd’hui, la résonance est saisissante. La Wayback Machine ne nous confronte pas à une extinction soudaine, mais à une extinction silencieuse : celle de la mémoire du web, éditeur par éditeur, ligne de robots.txt par ligne. La disparition d’Internet ne sera peut-être pas un black-out spectaculaire. Elle est déjà en cours, par effritement, et elle commence par ce qu’on archive.

→ Lire : Extinction ou la fin d’Internet (octobre 2018)

Sources principales : Nieman Lab (Harvard), News publishers limit Internet Archive access due to AI scraping concerns, janv. 2026 • Wired, avril 2026 • Internet Archive Blog, réponse de Mark Graham, févr. 2026 • Techdirt (Mike Masnick), févr. 2026 • Electronic Frontier Foundation, lettre ouverte mars 2026 • Siècle Digital et Clubic pour la couverture française.

Article publié dans la rubrique Bullshit Detector du blog.