Le réseau social américain accuse la start-up d’intelligence artificielle Perplexity d’avoir contourné ses protections techniques pour aspirer massivement le contenu de sa plateforme sans autorisation. Une nouvelle bataille juridique qui expose les tensions croissantes entre les géants du web et les acteurs de l’IA générative.

Ce qu'il faut retenir :

  • Reddit porte plainte contre Perplexity AI et trois sociétés de scraping pour violation du droit d’auteur.
  • Selon Reddit, près de trois milliards de pages auraient été aspirées via Google entre le 1er et le 13 juillet 2025.
  • Les accusés sont soupçonnés d’avoir contourné les mesures anti-scraping de Reddit et du moteur de recherche Google.
  • Perplexity nie les accusations, revendiquant « un accès libre et équitable aux connaissances publiques ».

Reddit sort les griffes contre l’IA

Le torchon brûle entre Reddit et Perplexity AI. La célèbre plateforme communautaire, utilisée chaque jour par plus de 100 millions d’internautes, a déposé une plainte devant la cour fédérale de New York contre la start-up américaine spécialisée dans la recherche par IA. Trois autres entreprises sont visées : SerpApi, Oxylabs et AWMProxy, connues pour leurs services de collecte et de proxy.

Reddit les accuse d’avoir contourné ses protections techniques (fichiers robots.txt, limitations d’adresse IP et systèmes CAPTCHA) afin d’extraire à grande échelle les conversations hébergées sur le site. Ces données auraient ensuite alimenté le moteur de réponse de Perplexity, un assistant IA concurrent de ChatGPT et Gemini.

Le directeur juridique du réseau social, Ben Lee, évoque une véritable « économie de blanchiment de données à l’échelle industrielle » où les entreprises d’intelligence artificielle rivalisent pour s’accaparer du contenu produit par des humains sans rémunération ni autorisation.

Un contournement via Google

D’après les éléments de la plainte rapportés par The Financial Times et The Verge, le procédé aurait été particulièrement sophistiqué. Les trois prestataires de scraping auraient utilisé des serveurs proxy et de faux navigateurs pour se faire passer pour des utilisateurs humains auprès de Google. Objectif : extraire des milliards de pages de résultats contenant du contenu Reddit indexé par le moteur de recherche.

Selon Reddit, cette manœuvre aurait permis de récupérer près de trois milliards de pages en deux semaines, dont 1,8 milliard par SerpApi. Pour prouver les faits, les équipes de Reddit auraient même créé une publication test, visible uniquement via Google : celle-ci serait ensuite apparue dans les réponses générées par Perplexity, confirmant le lien entre les opérations d’extraction et la plate-forme d’IA.

Des discussions rompues avant la plainte

Avant d’en arriver à la voie judiciaire, Reddit aurait proposé à Perplexity un partenariat sur le modèle d’accords de licence similaires à ceux signés avec Google et OpenAI en 2024. Ces accords permettent un accès contrôlé et rémunéré aux données publiques, garantissant le respect du droit d’auteur et des règles d’usage de l’API.

Mais selon plusieurs sources citées par The Financial Times, Perplexity aurait refusé de conclure un tel contrat, préférant continuer à exploiter les contenus via des voies détournées. Ce refus aurait conduit Reddit à déposer plainte le 22 octobre 2025, exigeant l’arrêt immédiat des pratiques incriminées, la restitution des gains obtenus, et des dommages-intérêts pour le préjudice subi.

La riposte de Perplexity

De son côté, Perplexity conteste fermement les accusations. Son porte-parole, Jesse Dwyer, affirme que la société « n’a pas encore été officiellement poursuivie » et qu’elle se battra toujours pour le droit des utilisateurs à « accéder librement aux connaissances publiques ». L’entreprise se présente comme un acteur responsable fournissant des réponses factuelles grâce à une IA précise et « fondée sur des principes et responsable ».

"À chaque fois qu'on nous interroge sur les licences de contenu, nous expliquons que Perplexity, en tant qu'entreprise applicative, n'entraîne pas de modèles d'IA sur le contenu. Cela n'a jamais été fait. Il nous est donc impossible de signer un accord de licence pour le faire. Il y a un an, après avoir expliqué cela, Reddit a insisté pour que nous payions quand même, malgré l'accès légal à ses données. Céder à la force ne fait tout simplement pas partie de notre façon de faire."

Déclaration de Perplexity postée sur Reddit

Perplexity, déjà épinglée en août 2025 par Cloudflare pour des pratiques similaires de contournement, soutient qu’elle respecte le fichier robots.txt de Reddit et ne s’appuie pas sur les données du site pour entraîner ses modèles. Reddit maintient pourtant que ses mises en demeure, envoyées dès mai 2024, ont été ignorées, tandis que les citations de contenus Reddit dans les résultats Perplexity auraient été multipliées par quarante dans les mois suivants.

Reddit en croisade contre l’IA non éthique

L’action contre Perplexity s’inscrit dans une stratégie plus large de Reddit visant à protéger sa base de données communautaire, considérée comme une « mine d’or » pour l’entraînement des intelligences artificielles. Quelques mois plus tôt, la plateforme avait déjà attaqué la société Anthropic, créatrice de Claude, pour des accusations similaires de vol de données.

En choisissant d’engager une nouvelle bataille judiciaire, Reddit entend affirmer ses conditions d’accès à son contenu et imposer aux acteurs de l’IA un cadre légal plus strict. Un signal fort dans un contexte où la question de la propriété des données et du consentement des utilisateurs fait figure d’enjeu central de la révolution de l’IA générative. Rappelons par ailleurs que la plateforme a signé en 2024 un accord de 60 millions de dollars avec Google pour permettre à la firme de Mountain View pour lui permettre d'enrichir ses modèles d'IA.