Matt Cutts et le scraping de textes

Article rédigé par Olivier Andrieu

Fondateur Abondance

Publié le 05/12/2013 09h30 | Mis à jour le 03/07/2024 15h28

Temps de lecture : 2 minutes

Nous suivre sur Google

Résumer cet article avec :

ChatGPT

Mistral

Claude

Perplexity

Grok

Partagez l'article

Matt Cutts explique dans une vidéo qu'il n'est pas recommandé d'agréger sous forme de copie/coller, dans une même page, des contenus venant de sites web différents...

Matt Cutts a posté une nouvelle vidéo (1'48", tee-shirt noir), répondant à la question Is it a good practice to combine small portions of content from other sites? ou, en français, "Est-ce une bonne pratique que d'agréger plusieurs contenus venant de sites différents, en citant la source ?".

La réponse de Matt Cutts est : a priori, ce n'est pas une pratique recommandée. Il explique que Yahoo!, par exemple, déteste cette façon de faire qu'il appelle "stitching" (mais on parle assez souvent également de "scraping" lorsqu'on assemble sur une même page des morceaux de contenus venant d'autres sites pour créer un ensemble, sorte de puzzle, ne proposant finalement aucun contenu original). Le fait d'agréger plusieurs phrases, chaque paragraphe venant d'un site différent, n'est pas "recommandable" selon Matt, et est considéré comme du spam, explique clairement le porte-parole "Quality Search" de Google, puisque ce sera certainement vu comme du contenu de faible qualité. Il est cependant possible de faire des synthèses intéressantes (sans faire de copier/coller), comme on en trouve sur Wikipedia, mais dans la majorité des cas, la "scraping" ou "stitching" bestial vous amène, selon les dires de Matt Cutts, dans "une zone à hauts risques".

>
Source de l'image :

Pour poursuivre la lecture

Google dévoile une documentation complète sur le contrôle des IA génératives dans Search Console

Article rédigé par Olivier Andrieu

Fondateur Abondance

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

Une sélection d’outils pour vous aider

12 commentaires

olivier@abondance.com sur 9 décembre 2013 à 19 h 19 min

@Patrick : oui mais les pages de résultats de Google ne sont pas indexées par… Google 🙂
Réponse
patrick sur 9 décembre 2013 à 19 h 06 min

Sur le fond c’est évident, mais comment font les moteurs pour présenter du contenu, je ne crois pas qu’il s’agisse d’un production interne n’est ce pas ?
Réponse
Matt Cutts sur 8 décembre 2013 à 14 h 53 min

c’est bien beau de la part de Matt Cutts, de donner ses conseils mais aujourd’hui quelle place est laissée au référencement dit naturel, submergé de spam Google Adwords.
Réponse
Encyclodocs sur 8 décembre 2013 à 10 h 06 min

Très bon article, il est effectivement important de mettre un peu d’ordre dans le scraping de textes afin de rendre le web plus qualitatif.
Réponse
Véronique Duong sur 5 décembre 2013 à 16 h 15 min

Bonjour Olivier, merci pour cet article, et ce rappel sur le copié / collé. Mais en parlant de « puzzle » ou scraping de textes, cela me rappelle un peu ce que fait Scoopit (curation de contenus du web), et mon avis rejoint celui de Laurent B. et jessyseonoob.
Réponse
jessyseonoob sur 5 décembre 2013 à 15 h 35 min

C’est pas beau parcque google news récupère les titres et les description des articles 🙂
Même remarque que laurent par rapport a yahoo pipe sur lequel il faut que je me penche.
La plupart des outils de curation fonctionnent sur ce principe là. Même wordpress a une option « repress ».

Et comme disait matt cutts « Is it a good practice to combine small portions of content from other sites? »
Réponse
Marc DUPUY sur 5 décembre 2013 à 13 h 26 min

Certainement pas une grande news, on le savait !
Même si c’est une plaie c’est difficile à détecter !
Réponse
Laurent Bourrelly sur 5 décembre 2013 à 11 h 55 min

Marrant que Yahoo déteste car ils nous ont donné le fabuleux Yahoo Pipes pour mixer le contenu.

Sinon, si je ne m’abuse, la question parle plutôt d’agrégation au lieu de scraping. L’auteur parle de linker les sources; ce qui n’est pas le cas dans le scrap. Donc, la curation manuelle comme le fait par exemple TechMeme c’est de la merde ? Mieux vaut publier de la paraphrase bas de gamme au lieu de faire une curation de qualité ?
De plus, cela fait un moment qu’on ne mixe plus par bouts de quelques phrases consécutives.
La souris a toujours de l’avance sur le chat…
Réponse
Master case sur 5 décembre 2013 à 11 h 41 min

C’est très curieux que Matt Cutts affirme que le scraping de textes est interdit dans la mesure où cette pratique est toujours autant utilisée par des spammeurs et avec un grand succès. Nous le savons de source sûre étant donné que nous nous battons depuis plusieurs mois contre des spammeurs qui ont intégralement copiés le contenu de notre site et qu’ils utilisent cette technique…
Réponse
Joe sur 5 décembre 2013 à 10 h 28 min

Encore une grosse news de la part de Matt…
Réponse
- Yoann sur 5 décembre 2013 à 21 h 18 min
  
  Ce type a une capacité inhumaine à parler pour ne rien dire 😀
  Réponse
Dorian sur 5 décembre 2013 à 10 h 11 min

Google est-il vraiment en mesure de détecter l’assemblage de plusieurs scrappings sur une même page ?
Réponse

Laisser une réponse Annuler la réponse

Matt Cutts et le scraping de textes

Matt Cutts explique dans une vidéo qu'il n'est pas recommandé d'agréger sous forme de copie/coller, dans une même page, des contenus venant de sites web différents...

Articles complémentaires :

Le SEO en 500 questions : Le guide complet pour dominer les résultats de recherche

Une sélection d’outils pour vous aider