adobe-pdf-logo

Lorsqu'on propose sur son site des contenus au format PDF, faut-il en forcer la désindexation auprès de Google ? Est-ce une bonne pratique SEO ? Le déréférencement de ce type de fichier est-il une bonne ou une mauvaise chose ? Réponse...

De nombreux sites proposent en ligne des fichiers PDF, qui sont indexés par Google. Pour les retrouver, on peut taper des requêtes comme "seo filetype:pdf (on recherche ici les fichiers qui contiennent le mot "seo" et qui sont au format PDF) :

seo-filetype-pdf
Source de l'image :Abondance

La plupart du temps, on trouve ainsi de nombreux fichiers à ce format. Google sait donc indexer et lire le contenu de ces fichiers PDF. Mais sont-ils intéressants dans le cadre d'une stratégie SEO ? On peut en effet se poser la question d'une éventuelle désindexation, et ce pour plusieurs raisons :

1. Si Google sait indexer les PDF, ce sont des fichiers qui sont très complexes, voire impossibles, à optimiser. Pas de H1, H2, etc., pas de balises qui indiquent de réelles "zones chaudes" où insérer des mots clés. De plus, la plupart des meta-données que l'on peut rajouter aux PDF ne sont pas lues par Google. Donc, est-il intéressant d'indexer sur Google un contenu non optimisé avec une visée SEO ?

2. Un contenu PDF peut entrer en conflit de "duplicate content" avec le même contenu en HTML, ce qui est dommage. Donc, si vous avez le même contenu dans les deux formats, autant garder l'HTML, plus facile à optimiser, donc à positionner.

3. De plus, lorsque l'internaute trouve, comme dans l'exemple ci-dessus, un fichier PDF dans les SERP de Google, il clique dessus et télécharge directement le fichier. Résultat ? Il n'est même pas venu sur votre site. Vous ne l'avez pas fait "entrer dans la boutique". Avouez que c'est dommage, non ? Ne vaudrait-il pas mieux le faire venir a travers d'un page HTML puis, une fois qu'il est sur le site, lui proposer les différents fichiers PDF à sa disposition ?

Envisager la désindexation des fichiers PDF

Le SEO est souvent affaire d'exceptions. Parfois, il pourra être intéressant de laisser Google indexer les fichiers PDF de son site. Mais il est en tout cas important de se poser la question. Il en est de même, d'ailleurs, des fichiers Word (.doc), Excel (.xls) ou Powerpoint (.ppt) entre autres.

Vous vous apercevrez alors que la réponse penche souvent du côté de la désindexation. En revanche, dans ce cas, les moyens "classiques" de déréférencement ne fonctionnent pas obligatoirement :
- La balise "robots noindex" n'est pas utilisable puisqu'il ne s'agit pas là de fichiers HTML.
- Le fichier robots.txt n'est pas toujours simple à utiliser également car les fichiers PDF ne sont pas toujours, physiquement, dans un même répertoire (comme c'est plus souvent le cas pour les images). Et, dans de nombreux cas, il n'est pas facile de les isoler au travers d'une directive "disallow:".

Deux solutions sont alors possibles :

1. La mise en "nofollow" des liens pointant sur les fichiers PDF et permettant de les télécharger. Cela fonctionnera pour les nouveaux liens (ceux qui n'ont pas encore été suivis par les robots de Google), en revanche, si les fichiers PDF ont déjà été indexés, le "nofollow" sera inefficace.

2. La meilleure façon d'effectuer la désindexation sera alors d'utiliser la directive X-Robots-tag du protocole HTTP en d'envoyer la directive "noindex" lorsque Googlebot tentera de les télécharger. Pour cela, quelques lignes suffiront dans le fichier .htacess de votre serveur Apache (source : l'excellent site Y a pas de quoi) :

#Bloquer l'indexation des fichiers Word et PDF
<files ~ ".(doc|docx|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Dans ce cas, les fichiers Word et PDF en question seront désindexés de Google en quelques jours.

Pour conclure, c'est à vous de voir ce qu'il faut faire avec vos fichier PDF. Vous êtes libres, bien sûr, de les laisser indexés, mais le "geste qui sauve" sera avant tout de se poser la question de leur désindexation. Ou pas... Selon la réponse, vous savez en tout cas maintenant comment faire...