Pendant que les éditeurs se battent pour protéger leurs contenus, une question plus profonde demeure : Common Crawl, l'archive web qui alimente l'entraînement de la majorité des grands modèles de langage, utilise des métriques d'autorité pour prioriser ses crawls. Ces scores, appelés Harmonic Centrality et PageRank, pourraient-ils influencer la fréquence à laquelle les IA citent certaines sources ? Une analyse de 607 millions de domaines révèle des corrélations troublantes.

Ce qu'il faut retenir :

  • 64% des modèles de langage analysés entre 2019 et 2023 ont été entraînés avec des données filtrées de Common Crawl, incluant plus de 80% des tokens de GPT-3.
  • Common Crawl utilise l'Harmonic Centrality pour prioriser quels domaines crawler et combien de pages capturer, créant une surreprésentation des sites à haute autorité dans les données d'entraînement.
  • Les domaines les plus cités par les IA (Wikipedia, Reddit, YouTube) figurent également parmi les mieux classés dans le WebGraph de Common Crawl, soulevant la question d'une influence indirecte.
  • Une enquête de The Atlantic révèle que Common Crawl a contourné les paywalls et ignoré les demandes de retrait de contenu depuis 2016, alimentant une controverse majeure sur les droits d'auteur.

La controverse Common Crawl explose en 2025

En novembre 2025, le journaliste Alex Reisner publie une enquête explosive pour The Atlantic qui met Common Crawl sous les projecteurs. Cette organisation à but non lucratif, fondée par un ancien employé de Google et sponsorisée par Amazon Web Services (AWS), archive l'intégralité du web accessible publiquement depuis des années.

L'investigation révèle que Common Crawl a fourni des millions d'articles protégés par paywall aux entreprises d'IA, contournant les protections techniques en ne chargeant pas le code JavaScript qui vérifie les abonnements. Plus troublant encore, malgré les demandes de retrait de publications majeures comme The New York Times (juillet 2023) et la Danish Rights Alliance (juillet 2024), aucun fichier d'archive n'a été modifié depuis 2016.

Le directeur exécutif de Common Crawl, Rich Skrenta, défend une position aussi radicale que surprenante : « Les robots sont des gens aussi » et « si vous ne vouliez pas que votre contenu soit sur Internet, vous n'auriez pas dû le publier ». Malgré ces déclarations, l'organisation a publié un démenti le jour même de l'enquête, affirmant ne jamais contourner de restrictions d'accès.

L'influence financière des géants de l'IA

Les liens financiers entre Common Crawl et l'industrie de l'IA soulèvent des questions d'indépendance. En 2023, OpenAI et Anthropic ont chacun versé 250 000 dollars à l'organisation. NVIDIA figure également comme collaborateur sur le site de Common Crawl.

Ces donations surviennent alors que Common Crawl héberge 9,5+ pétaoctets de données et est cité dans plus de 10 000 publications académiques. Le Washington Post a analysé le dataset C4 de Google (une version filtrée de Common Crawl) et découvert 15 millions de sites web, incluant des sources comme patents.google.com, nytimes.com (4e position), ainsi que des sites controversés comme RT.com et Breitbart.

L'Harmonic Centrality : le signal d'autorité méconnu

Au-delà de la controverse sur les droits d'auteur, une dimension technique reste largement ignorée. Common Crawl ne se contente pas d'archiver : il publie également des données WebGraph contenant des métriques d'autorité pour 607 millions de domaines.

Depuis 2017, Common Crawl utilise l'Harmonic Centrality pour déterminer quels domaines crawler en priorité. Cette métrique mesure en fait la « proximité » d'un domaine par rapport à tous les autres dans le graphe de liens du web. Plus le score est élevé, plus le domaine est crawlé fréquemment et plus de pages sont capturées.

L'ingénieur principal de Common Crawl explique que cette approche est privilégiée au PageRank de Google, car elle résiste mieux au spam. Le score d'Harmonic Centrality n'est pas seulement utilisé pour décider quels domaines crawler, mais aussi combien d'URLs inclure.

Les domaines dominants du WebGraph

Les 15 premiers domaines du WebGraph Common Crawl (octobre-décembre 2025) révèlent une domination des plateformes sociales et infrastructures Google :

RangDomaineRang HCPageRank
1facebook.com#1#3
2googleapis.com#2#2
3google.com#3#1
4instagram.com#4#5
5googletagmanager.com#5#4
6youtube.com#6#8
7twitter.com#7#10
8gstatic.com#8#7
9linkedin.com#9#12
10gmpg.org#10#9
11cloudflare.com#11#6
12gravatar.com#12#14
13wordpress.org#13#13
14wikipedia.org#14#37
15apple.com#15#19
Top domaines - Octobre, Novembre, Décembre 2025

Une observation intéressante : Wikipedia occupe la 14e position en Harmonic Centrality mais seulement la 37e en PageRank, alors qu'elle représente environ 22 % des données d'entraînement des principaux modèles de langage et reste la source la plus citée par ChatGPT avec 7,8 % des citations.

Les patterns de citation des modèles de langage

Plusieurs études récentes ont analysé les sources citées par les IA. Semrush, après analyse de 150 000+ citations, constate que Reddit domine avec 40,1 % des citations, suivi par Wikipedia (26,3 %) et Google (23 %). Cette domination de Reddit s'explique notamment par l'accord de licence d'API de 60 millions de dollars conclu avec Google début 2024.

Profound, qui a analysé 680 millions de citations entre août 2024 et juin 2025, révèle des différences entre plateformes : Wikipedia représente 7,8 % des citations ChatGPT, tandis que Reddit atteint 6,6 % sur Perplexity et 2,2 % dans les AI Overviews de Google. Les domaines .com représentent 80,41 % de toutes les citations, les .org seulement 11,29 %.

​Search Atlas, après analyse de 5,17 millions de citations couvrant 907 003 domaines uniques, confirme que les domaines commerciaux dominent toutes les plateformes, tandis que les sources académiques et gouvernementales restent sous-représentées.

L'autorité traditionnelle ne prédit pas la visibilité IA

Une découverte majeure de Search Atlas en 2025 contredit les intuitions : les métriques d'autorité SEO traditionnelles (Domain Rating, Domain Authority) montrent des corrélations faibles ou négatives avec la visibilité dans les réponses des modèles de langage.

L'analyse de 21 767 domaines révèle que Perplexity affiche une corrélation de -0,18 avec Domain Power, tandis que Gemini montre -0,09. Les domaines à haute autorité sous-performent occasionnellement, tandis que les sites de niveau intermédiaire maintiennent une visibilité plus stable.

La recherche confirme que les IA récompensent la pertinence contextuelle et la diversité plutôt que l'autorité, restructurant la découverte d'information autour de la qualité du contenu plutôt que de la réputation dérivée des backlinks. Seuls 11 % des domaines sont cités à la fois par ChatGPT ET Perplexity.

Le volume de recherche de marque comme prédicteur principal

Contrairement aux métriques de liens, le volume de recherche de marque apparaît comme le prédicteur n°1 des citations par les IA, avec une corrélation de 0,334. Les sites présents sur 4 plateformes ou plus ont 2,8 fois plus de chances d'apparaître dans les réponses ChatGPT.

Une autre étude démontre que l'optimisation ciblée peut augmenter la visibilité IA de 30 à 40 %. L'ajout de statistiques augmente la visibilité de 22 %, tandis que l'intégration de citations directes l'augmente de 37 %.

La longue traîne et les communautés marginalisées

Le rapport de la Mozilla Foundation de février 2024 soulève une autre préoccupation : l'utilisation de l'Harmonic Centrality par Common Crawl pour prioriser les crawls signifie que les communautés numériquement marginalisées ont moins de chances d'être incluses dans les données d'entraînement.

Sur les 607 millions de domaines indexés par Common Crawl, plus de 100 millions occupent la longue traîne avec un rang supérieur à 1 million. L'ingénieur principal de Common Crawl reconnaît d’ailleurs que Common Crawl ne contient pas l’intégralité du web, contrairement à ce que l’on pense.​

Les données structurées comme levier d'optimisation

Les données structurées et le balisage schema.org apparaissent comme des facteurs déterminants. Une expérimentation de Search Engine Land montre qu'un site bien structuré avec schema atteint le rang 3 avec apparition en AI Overview, tandis qu'un site sans schema n'est pas indexé du tout.

Les tableaux de comparaison avec HTML approprié affichent des taux de citation 47 % supérieurs. Le schema FAQPage alimente directement l'extraction question-réponse des IA. Wikidata, source numéro un du Knowledge Graph de Google avec 500 milliards de faits et 5 milliards d'entités, renforce la reconnaissance d'entités via la propriété sameAs.​

Une équation multifactorielle

La sélection des citations par les modèles de langage reste un phénomène complexe. Les facteurs confirmés incluent la qualité et pertinence du contenu, la fraîcheur et récence (impact significatif, 40-60 % des sources citées changent mensuellement), le formatage structuré, les performances de récupération en temps réel, et les préférences spécifiques aux plateformes.

Les facteurs possiblement contributeurs comprennent la présence historique dans les données d'entraînement, les associations d'autorité intégrées, et les signaux dérivés du WebGraph (directs ou indirects).

Implications pratiques pour l'optimisation

La recherche suggère plusieurs pistes d'action.

  • Ne pas ignorer l'autorité : bien que le contenu et la fraîcheur comptent significativement, les signaux au niveau du domaine jouent probablement un rôle dans l'équation globale.
  • Suivre plusieurs métriques : le CC Rank est un point de données parmi d'autres, pas une solution miracle, mais potentiellement utile pour le benchmarking. Comprendre les différences entre plateformes : Wikipedia domine ChatGPT, Reddit domine Perplexity et Google AI Overviews.
  • Réorienter les priorités de link building : l'analyse de Search Atlas recommande de se concentrer sur les connexions contextuelles et thématiques plutôt que sur l'inflation d'autorité, les résultats montrant qu'un Domain Rating ou Domain Authority élevé seul n'augmente pas la probabilité de citation dans les modèles d'IA.

La question de la longue traîne

Si votre domaine se situe dans la longue traîne de Common Crawl (rang supérieur à 1 million), il vaut la peine d'investiguer si cela corrèle avec des difficultés de citation. Mozilla souligne que la mission de Common Crawl en tant qu'organisation ne s'aligne pas facilement avec les besoins d'un développement d'une IA digne de confiance.

L'organisation ne retire délibérément pas les discours de haine, voulant que ses données restent utiles aux chercheurs étudiant ces phénomènes. Cependant, ces données sont indésirables lors de l'entraînement des modèles de langage, car elles peuvent conduire à des outputs nuisibles.

Vers plus de transparence

Mozilla recommande que Common Crawl mette mieux en évidence les limitations et biais de ses données, et soit plus transparent sur sa gouvernance. L'organisation devrait également imposer plus de transparence autour de l'IA générative en exigeant que les constructeurs d'IA attribuent leur utilisation de Common Crawl.

Pour Mozilla, les entreprises derrière les IA devraient créer ou soutenir des intermédiaires dédiés chargés de filtrer Common Crawl de manières transparentes et responsables. À long terme, Mozilla préconise moins de dépendance envers des sources comme Common Crawl et un accent plus important sur l'entraînement de l'IA générative avec des datasets créés et curés par des humains de manière équitable et transparente.

La relation entre les métriques d'autorité de Common Crawl et les citations des modèles de langage mérite des études empiriques rigoureuses. L'outil CC Rank Checker constitue une petite contribution pour rendre ces données accessibles, mais les questions plus profondes nécessitent davantage de recherche, de données et de transparence de la part des entreprises d'IA sur la composition de leurs données d'entraînement.