Vous demandez conseil à ChatGPT pour choisir un produit ? Sachez que si vous posez la même question 100 fois, vous obtiendrez 100 réponses différentes. C'est ce que révèle une étude inédite menée par Rand Fishkin et Patrick O'Donnell, qui ont analysé près de 3 000 réponses d'intelligence artificielle. Leur constat est sans appel : les outils d'IA ne sont pas fiables pour recommander des marques ou des produits, et le marché du tracking de visibilité dans l'IA, estimé à plus de 100 millions de dollars par an, repose sur des bases fragiles.

Ce qu'il faut retenir :

  • Les IA donnent des listes différentes 99 fois sur 100 : ChatGPT, Claude et Google AI produisent des recommandations quasi-uniques à chaque requête, même identique
  • Le classement des produits n'a aucun sens : la position d'une marque dans une réponse IA est totalement aléatoire et change constamment
  • La mesure de « visibilité » reste utilisable : malgré ce chaos, le pourcentage d'apparition d'une marque sur des centaines de requêtes peut constituer une métrique valable
  • Les prompts humains sont extrêmement variés : contrairement aux recherches Google, les utilisateurs formulent leurs questions à l'IA de manières radicalement différentes

Une expérimentation à grande échelle

L'étude a mobilisé 600 volontaires qui ont soumis 12 prompts différents aux trois outils IA les plus populaires aux États-Unis : ChatGPT, Claude et Google AI (via AI Overview et AI Mode). Au total, 2 961 requêtes ont été enregistrées, analysées et normalisées.

Les chercheurs ont choisi des prompts variés, couvrant le B2C et le B2B, dans des secteurs de tailles différentes. Par exemple : « Quels sont les meilleurs couteaux de chef, marque et modèle, pour un cuisinier amateur avec un budget inférieur à 300 $ ? » ou « Quels sont les meilleurs consultants en marketing digital spécialisés en e-commerce ? ».

Des résultats surprenant sur l'incohérence des IA

Les résultats montrent une variabilité stupéfiante. Pour chaque prompt testé, le nombre de marques uniques recommandées varie considérablement : de quelques dizaines à plusieurs centaines selon le secteur.

Plus troublant encore, trois facteurs changent à chaque réponse :

  • La liste des recommandations présentées
  • L'ordre dans lequel elles apparaissent
  • Le nombre total d'éléments dans la liste (parfois 2-3, parfois plus de 10)

La probabilité d'obtenir deux fois la même liste est inférieure à 1 sur 100. Quant à obtenir cette liste dans le même ordre, c'est moins d'1 chance sur 1 000. Ces chiffres s'appliquent à tous les outils testés, quelle que soit la thématique.

Nombre de marques uniques mentionnées par les IA - Source : SparkToro

Le cas dramatique des recommandations médicales

L'étude illustre ce problème avec un exemple glaçant : la recherche du meilleur hôpital de cancérologie sur la côte ouest américaine. Même dans une situation où obtenir la meilleure information est crucial, Google AI produit des listes tellement aléatoires qu'on ne verra presque jamais deux fois la même réponse, dans le même ordre.

Les chercheurs plaident pour que les outils IA affichent un avertissement précisant que leurs listes de recommandations sont le produit d'une « loterie statistique » de candidats, et non des classements basés sur des critères objectifs. Il ne s'agit que de « tokens qui suivent fréquemment d'autres tokens » dans le corpus d'entraînement de l'IA.

La métrique de visibilité : une lueur d'espoir ?

Malgré ce chaos apparent, l'étude identifie une mesure potentiellement valable : le pourcentage de visibilité. En répétant une même requête des dizaines ou centaines de fois, on peut déterminer quelles marques apparaissent le plus fréquemment dans l'ensemble de considération de l'IA.

Taux de visibilité des Top 3 de marques dans les réponses IA - Source : SparkToro

Par exemple, lorsque Google AI est interrogé sur les consultants en marketing digital e-commerce, l'agence Smartsites apparaît dans 85 des 95 réponses, soit 89 % de visibilité. Cette fréquence d'apparition semble indiquer un niveau d'association que l'IA établit entre la marque et l'intention de recherche.

Le taux de visibilité varie également selon la taille du secteur. Dans les domaines avec peu d'acteurs (comme les fournisseurs cloud pour startups SaaS), les recommandations les plus mentionnées atteignent 90-100 % de visibilité. À l'inverse, dans des secteurs larges comme les romans de science-fiction récents, les taux de visibilité sont beaucoup plus dispersés, autour de 30-40 %.

La diversité extrême des prompts humains

Une deuxième phase de l'étude a examiné la variabilité des prompts créés par des humains réels. 142 volontaires ont été invités à formuler une requête pour choisir des écouteurs pour un membre de leur famille en voyage. Résultat : pratiquement aucun prompt ne se ressemblait.

L'analyse de similarité sémantique donne un score de 0,081, ce qui signifie qu'en moyenne, deux prompts étaient aussi similaires que « poulet Kung Pao » et « beurre de cacahuète » : des ingrédients communs, mais des concepts très différents.

Contrairement aux recherches Google où les utilisateurs réduisent leur intention à 2-5 mots-clés, les prompts IA sont créatifs, détaillés et hautement spécifiques. Cette découverte complexifie encore davantage le tracking de visibilité dans l'IA.

Quand le chaos trouve un ordre inattendu

Dernière surprise de l'étude : malgré la diversité énorme des prompts humains, les marques recommandées par les IA restent relativement cohérentes. Les 142 prompts uniques sur les écouteurs, soumis plusieurs fois, ont généré 994 réponses. Dans cet ensemble, des marques comme Bose, Sony, Sennheiser et Apple apparaissent dans 55-77 % des cas.

Des prompts uniques, mais des recommandations cohérentes - Source : SparkToro

Cette cohérence se maintient même quand on compare avec des requêtes sur d'autres types d'écouteurs (gaming, podcasting, réduction de bruit), qui produisent des listes complètement différentes. Les IA semblent donc capables de saisir l'intention sous-jacente, malgré la formulation variable des prompts.

Le test a été répété sur un secteur B2B large (agences de design de marque pour cafés), avec des résultats conformes aux attentes : forte diversité sémantique des prompts, et visibilité maximale autour de 30-40 % pour les marques les plus citées.

L'industrie du tracking IA sous pression

Ces découvertes mettent en lumière les failles du marché du tracking de visibilité dans l'IA, déjà estimé à plus de 100 millions de dollars annuels.

Les conclusions de l'étude sont claires :

Les outils qui promettent de suivre la « position de classement » dans les IA vendent du vent. La notion même de classement n'a aucun sens dans un système conçu pour générer des réponses uniques à chaque fois.

En revanche, mesurer le pourcentage de visibilité d'une marque à travers des dizaines ou centaines de requêtes répétées semble statistiquement valide. C'est une métrique imprécise, mais utilisable, comparable à viser une cible avec des fléchettes.

Des questions encore sans réponse

L'étude reconnaît ses limites et identifie des questions qui nécessiteraient des recherches supplémentaires :

  • Combien de fois faut-il répéter un prompt pour obtenir des réponses statistiquement significatives sur la visibilité d'une marque ?
  • Les appels API aux IA reproduisent-ils fidèlement la variété que rencontrent les utilisateurs manuels ?
  • Quelle variété et quel volume de prompts sont nécessaires pour obtenir des données significatives sur un secteur donné ?

Les chercheurs appellent les entreprises de tracking IA, souvent soutenues par des capitaux-risqueurs importants, à publier des méthodologies transparentes et des recherches vérifiables.

Recommandations pour les marketeurs

Pour les professionnels du marketing tentés d'investir dans le tracking de visibilité IA, les auteurs de l'étude donnent plusieurs conseils :

  • N'investissez pas dans des outils qui ne publient pas de recherches statistiquement fondées et publiquement vérifiables. Exigez que les fournisseurs répondent aux questions soulevées par cette étude et montrent leurs calculs.
  • Oubliez les métriques de « classement dans l'IA ». Elles sont mathématiquement absurdes compte tenu du fonctionnement probabiliste de ces outils.
  • Si vous devez mesurer quelque chose, concentrez-vous sur la visibilité en pourcentage, calculée sur un volume important de requêtes variées.
  • Comprenez que les IA sont des moteurs de probabilité, pas des sources de vérité. Elles génèrent des réponses uniques à chaque fois par conception. Attendre de la cohérence de leur part est fondamentalement incompatible avec leur fonctionnement.