> > Les critères de Penguin 2.1 (étude)

Les critères de Penguin 2.1 (étude)


Notez cet article

penguin

Une nouvelle étude tente de comprendre comment Google mesure la qualité d'un backlinks et son aspect toxique ou non, dans le cadre de son filtre Penguin 2.1, avec formules de calcul à l'appui...

Le site MatSight vient de publier une étude sur le filtre Penguin 2.1 lancé en octobre 2013 par Google.

Le but de cette étude est de comprendre comment Google mesure la "qualité" des backlinks pointant vers un site. Search Engine Watch nous en dit un peu plus sur les calculs proposés par MatSight : cette mesure dépendrait notamment de 3 critères appliqués aux pages qui génèrent le backlink :
- Le nombre de mots rares dans le texte.
- Le nombre de mots par phrases.
- Le nombre de syllabes par mots.

Ainsi, plus la page qui fait un lien vers vous contient de mots rares, de phrases longues et de mots, là aussi longs, et moins le risque que ce backlink soit considéré comme "toxique" est grand. La formule de calcul proposée par MatSight est la suivante :

RE = 206.835 – (1.015 x ASL) – (84.6 x ASW)

Où :
RE = "Readability Ease" (facilité de lecture).
ASL = Average Sentence Length (longueur moyenne des phrases ou le nombre de mots divisé par le nombre de phrases).
ASW = Average number of syllables per word (nombre moyen de syllabes par mot ou nombre de syllabes divisé par le nombre de mots dans la page).

Plus ce score est bas, plus la page est complexe à lire et, selon l'étude, devient un signal pour Google indiquant que la page est "toxique".

A chacun, sur cette base, de faire ses propres calculs et de voir si cette hypothèse est bonne...

mathsight-penguin-2-1

Source de l'image : Search Engine Watch

Commentaires : 11
  1. Lionel - Yooda 21 janvier 2014 at 10 h 45 min

    Ce genre de calculs sert plutôt à déterminer si un contenu est plagié ou non. Ou a déterminer le niveau de langage utilisé. L'application de ce principe aux backlinks me parait assez... indirecte.
    J'ai dans l'idée qu'encore une fois, corrélation n'est pas causalité. 🙂

  2. Julien 21 janvier 2014 at 11 h 32 min

    Cela semble plutôt mystique comme approche...
    J'ai du mal à imaginer la qualité jugée sur la longueur.
    Un bon contenu ne passe pas forcement par un contenu complexe.
    Suivant la cible, il est même souvent préférable d'utiliser des phrases courtes et facilement compréhensibles, mais cela n'enlève rien à la qualité de l'informations données.

    • Jerem 23 janvier 2014 at 17 h 29 min

      Je suis assez d'accord avec le principe que plus c'est long plus c'est bon ...

  3. Nicolas 21 janvier 2014 at 12 h 12 min

    A quand le Goncourt décerné par un algo Google ?

  4. Vincent Bedu 21 janvier 2014 at 12 h 20 min

    Formule vraiment intéressante, cela permettrait à beaucoup de ne pas perdre de temps à se dépénaliser... Car certains passe plus de temps à essayer de retirer les pénalités plutôt qu'a se référencer de manière qualitative et cohérente.

  5. sebepe 22 janvier 2014 at 12 h 53 min

    Je suis pas certain que Google ait adopté ces critères là.
    Par extension, ça voudrait dire qu'il ne favorise que les contenus les moins compréhensibles ? Car si les mots utilisés dans un contenu sont "rares", c'est qu'il y a une raison : tout le monde ne les comprends pas...

    Du coup ça me laisse perplexe ...

  6. Keeg 22 janvier 2014 at 16 h 54 min

    Bizarre mais soit. Entre nous, c'est justement de longues phrases qui peuvent être caractéristique d'un faible niveau d'écriture. Une écriture à la volée se signale par de longues phrases imbuvables pour le lecteur.

    Il manque un paramètre random pour que le calcul soit valable. 😉

  7. Aurélien, Egoprod 22 janvier 2014 at 17 h 49 min

    Formule à prendre avec des pincettes, surtout au niveau des coef vu que les phrases sont construites de manière bien différente selon la langue.

    Ce qui est décrit est davantage un critère permettant d'apprécier la qualité du contenu, donc lié à Panda. Un site de faible qualité serait donc impacté à la fois par panda et pingouin.

    Je rejoins la conclusion de Lionel, (corrélation vs causalité) : Les liens les plus pourris sont situés sur des sites ayant un contenu pauvre, déjà défoncés par panda.

    Ce commentaire ayant de longues phrases, avec de longs mots et quelques mots rares, j'espère que le lien associé à mon prénom ne sera pas considéré comme toxique 😉

  8. Lucas 23 janvier 2014 at 14 h 28 min

    Héhé Aurélien 😉

    Je comprends qu'on puisse arriver à calculer une formule mathématique en se basant sur cette approche, mais y appliquer des variables fixes me parait totalement farfelu (15 points pour farfelu lol) - bien que ce soit (j'imagine) tiré d'une étude de cas concrète..

    D'autant plus que comme le disent mes petits camarades, la qualité du langage entre plus en compte dans une pénalité panda que pingouin.

  9. Jerem 23 janvier 2014 at 17 h 27 min

    Merci pour votre article.
    D'après vous, est ce que toxique = pénalité ?

  10. Antoine 24 janvier 2014 at 11 h 11 min

    Bonjour Olivier,

    "Ainsi, plus la page qui fait un lien vers vous contient de mots rares, de phrases longues et de mots, là aussi longs, et moins le risque que ce backlink soit considéré comme "toxique" est grand"

    * OK (même si en rédaction web, il me semble qu'une phrase adaptée à la livraison rapide de l'information doit être courte et contenir des mots pas trop longs... ou alors il faut définir un juste milieu, un nombre de mots et syllabes ne devant pas être dépassé car sinon tout aussi toxique que lorsque trop court).
    * Ensuite (c'est peut-être à cet endroit que je ne suis pas bien réveillé) :

    "Plus ce score est bas, plus la page est complexe à lire et, selon l'étude, devient un signal pour Google indiquant que la page est "toxique".

    * J'ai du me planter mais quand on fait le calcul c'est finalement l'inverse votre première phrase que j'ai cité, non ?

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site