> > Matt Cutts et le scraping de textes

Matt Cutts et le scraping de textes



 
Matt Cutts et le scraping de textes
Notez cet article

matt cutts

Matt Cutts explique dans une vidéo qu'il n'est pas recommandé d'agréger sous forme de copie/coller, dans une même page, des contenus venant de sites web différents...

Matt Cutts a posté une nouvelle vidéo (1'48", tee-shirt noir), répondant à la question Is it a good practice to combine small portions of content from other sites? ou, en français, "Est-ce une bonne pratique que d'agréger plusieurs contenus venant de sites différents, en citant la source ?".

La réponse de Matt Cutts est : a priori, ce n'est pas une pratique recommandée. Il explique que Yahoo!, par exemple, déteste cette façon de faire qu'il appelle "stitching" (mais on parle assez souvent également de "scraping" lorsqu'on assemble sur une même page des morceaux de contenus venant d'autres sites pour créer un ensemble, sorte de puzzle, ne proposant finalement aucun contenu original). Le fait d'agréger plusieurs phrases, chaque paragraphe venant d'un site différent, n'est pas "recommandable" selon Matt, et est considéré comme du spam, explique clairement le porte-parole "Quality Search" de Google, puisque ce sera certainement vu comme du contenu de faible qualité. Il est cependant possible de faire des synthèses intéressantes (sans faire de copier/coller), comme on en trouve sur Wikipedia, mais dans la majorité des cas, la "scraping" ou "stitching" bestial vous amène, selon les dires de Matt Cutts, dans "une zone à hauts risques".

>
Source de l'image :

Commentaires : 12
  1. Dorian 5 décembre 2013 at 10 h 11 min

    Google est-il vraiment en mesure de détecter l'assemblage de plusieurs scrappings sur une même page ?

  2. Joe 5 décembre 2013 at 10 h 28 min

    Encore une grosse news de la part de Matt...

    • Yoann 5 décembre 2013 at 21 h 18 min

      Ce type a une capacité inhumaine à parler pour ne rien dire 😀

  3. Master case 5 décembre 2013 at 11 h 41 min

    C'est très curieux que Matt Cutts affirme que le scraping de textes est interdit dans la mesure où cette pratique est toujours autant utilisée par des spammeurs et avec un grand succès. Nous le savons de source sûre étant donné que nous nous battons depuis plusieurs mois contre des spammeurs qui ont intégralement copiés le contenu de notre site et qu'ils utilisent cette technique...

  4. Laurent Bourrelly 5 décembre 2013 at 11 h 55 min

    Marrant que Yahoo déteste car ils nous ont donné le fabuleux Yahoo Pipes pour mixer le contenu.

    Sinon, si je ne m'abuse, la question parle plutôt d'agrégation au lieu de scraping. L'auteur parle de linker les sources; ce qui n'est pas le cas dans le scrap. Donc, la curation manuelle comme le fait par exemple TechMeme c'est de la merde ? Mieux vaut publier de la paraphrase bas de gamme au lieu de faire une curation de qualité ?
    De plus, cela fait un moment qu'on ne mixe plus par bouts de quelques phrases consécutives.
    La souris a toujours de l'avance sur le chat...

  5. Marc DUPUY 5 décembre 2013 at 13 h 26 min

    Certainement pas une grande news, on le savait !
    Même si c'est une plaie c'est difficile à détecter !

  6. jessyseonoob 5 décembre 2013 at 15 h 35 min

    C'est pas beau parcque google news récupère les titres et les description des articles 🙂
    Même remarque que laurent par rapport a yahoo pipe sur lequel il faut que je me penche.
    La plupart des outils de curation fonctionnent sur ce principe là. Même wordpress a une option "repress".

    Et comme disait matt cutts "Is it a good practice to combine small portions of content from other sites?"

  7. Véronique Duong 5 décembre 2013 at 16 h 15 min

    Bonjour Olivier, merci pour cet article, et ce rappel sur le copié / collé. Mais en parlant de "puzzle" ou scraping de textes, cela me rappelle un peu ce que fait Scoopit (curation de contenus du web), et mon avis rejoint celui de Laurent B. et jessyseonoob.

  8. Encyclodocs 8 décembre 2013 at 10 h 06 min

    Très bon article, il est effectivement important de mettre un peu d'ordre dans le scraping de textes afin de rendre le web plus qualitatif.

  9. Matt Cutts 8 décembre 2013 at 14 h 53 min

    c'est bien beau de la part de Matt Cutts, de donner ses conseils mais aujourd'hui quelle place est laissée au référencement dit naturel, submergé de spam Google Adwords.

  10. patrick 9 décembre 2013 at 19 h 06 min

    Sur le fond c'est évident, mais comment font les moteurs pour présenter du contenu, je ne crois pas qu'il s'agisse d'un production interne n'est ce pas ?

  11. olivier@abondance.com 9 décembre 2013 at 19 h 19 min

    @Patrick : oui mais les pages de résultats de Google ne sont pas indexées par... Google 🙂

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site