Une fuite de données émanant d'un ancien employé a dernièrement révélé près de 2 000 critères de pertinence qui serait utilisés par le moteur de recherche russe Yandex. Mais ces informations peuvent-elles vraiment nous aider dans notre quotidien de référenceur ?...

L'affaire agite le landerneau du SEO mondial depuis quelques jours : en effet, un « leak » (fuite de données) a dévoilé un document listant près de 2 000 critères de pertinence du moteur de recherche russe Yandex.

Quelques informations sur Yandex

Remettons tout d'abord les choses dans leur contexte : Yandex est un moteur très important en Russie, pays dans lequel il se bat en termes de leadership avec Google (même si l'invasion russe en Ukraine a fortement rebattu les cartes du « search » dans ce pays, pour ces deux acteurs). En dehors des frontières russes, Yandex est en revanche quasi inexistant dans la plupart des pays. C'est un moteur au sein duquel travaillent de nombreux xooglers (anciens employés de Google), ce qui provoque bien sûr quelques fantasmes chez certains observateurs. Mais d'une façon générale, Yandex a plutôt la réputation d'être un moteur « bien né » (à l'inverse d'un Qwant par exemple), c'est-à-dire sérieux et assez fiable dans ses algorithmes dont il est le propriétaire.

Une fuite révélant 1 922 critères de pertinence

Le paysage étant dressé, que s'est-il passé dans le cadre de ce « leak » ? Il semblerait en fait qu'un ancien employé de Yandex aurait rendu public un document listant les 1 922 critères de pertinence utilisés par Yandex pour noter la pertinence d'une page par rapport à une requête donnée, à la date du mois de juillet 2022. Yandex, de son côté, a indiqué que cette fuite n'était pas due à un souci de sécurité et de piratage et précise que le fichier rendu public n'est pas à jour : « Yandex n'a pas été piraté. Notre service de sécurité a trouvé des fragments de code d'un référentiel (repository) interne dans le domaine public, mais le contenu diffère de la version actuelle du référentiel utilisé dans les services Yandex. (…) Nous menons une enquête interne sur les raisons de la diffusion de fragments de code source au public, mais nous n'y voyons aucune menace pour les données des utilisateurs ou les performances de la plateforme. »

Des fichiers désormais disponibles un peu partout sur la Toile

La liste des 1 922 critères en mode brut est disponible ici et . Jean-Benoît Moingt en propose également une version traduite de façon automatique en français. Un moteur de recherche a même été créé pour effectuer des recherches parmi les différents critères. Si vous désirez en savoir plus sur le sujet, n'hésitez pas à lire également cet article du site Search Engine Land qui vous expliquera bon nombre de choses au sujet de ce leak, écrit par un expert du domaine.

On trouve donc - sans grande surprise - dans ces critères la mention du PageRank, de l'ancienneté des liens, du trafic, du CTR (deux critères que Google indique ne pas utiliser), MatrixNet qui serait une sorte d'algorithme RankBrain, etc. De nombreux fils Twitter notamment, analysent ces données.

D'accord, mais alors, ce leak peut-il nous aider ?

Ceci dit, il ne faut pas oublier certains points importants :

  • Yandex n'est pas Google. Chaque moteur a son mode de fonctionnement particulier et certains critères utilisés par l'un ne sont obligatoirement pris en compte par l'autre. Un chiffre totalement fantaisiste de « 70% de similarité » entre les critères utilisés par les deux moteurs circule, mais comment comparer les 1 922 critères de Yandex avec ceux de Google qui n'ont jamais été dévoilés publiquement ? C'est évidemment impossible.
  • Si une liste de critères de pertinence a un côté documentaire clairement très intéressant, cela n'explique pas comment fonctionne le moteur qui les utilise. Une liste de critères n'est pas un algorithme, or, c'est bien l'algorithme qui est le « cœur de la bête » : quel poids est attribué à chaque critère ? Comment sont-ils pris en compte et dans quel cas ? Et surtout quelle est l'interaction des critères entre eux en fonction du contexte, comme par exemple l'intention de recherche détectée ? Bref, on a là une liste d'ingrédients, mais il manque l'essentiel : la recette !

Ceci dit, cette liste est en soi intéressante (même s'il y a fort à parier qu'elle ne fera pas se lever la nuit un spécialiste d'IR - Information Retrieval ou plus simplement ce qu'on appelle le « search »), mais un SEO peut-il en tirer partie au quotidien pour son travail ? La réponse est certainement « NON » : Yandex est un moteur finalement mineur en dehors des frontières russes, rien ne dit que Google utilise ces critères-là et il manque avant tout des informations sur l'algorithme qui exploite ces données.

Ceci dit, cela reste une information documentaire très intéressante, que l'on va installer sur une étagère pour la relire de temps en temps, mais qui ne nous aidera pas réellement dans notre travail de SEO. En revanche, ces informations nous éveilleront dans notre veille sur le fonctionnement des moteurs de recherche avec bon nombre d'informations générale à leur sujet. Et ça, c'est toujours bon à prendre !

Exemples de critères de Yandex dévoilés par le leak. Source : Martin MacDonald