Le blog pour webmasters de Google nous donne quelques indications très intéressantes sur la façon dont Google indexe et analyse les documents PDF...

Le blog pour webmasters de Google fait aujourd'hui un point sur l'indexation de documents PDF par son moteur de recherche.

Voici les principaux points évoqués dans cet article :

- Google indexe des documents PDF depuis 2001.

- On peut les rechercher au travers de la syntawe "filetype:pdf" (exemple : "seo filetype:pdf").

- Google indexe à peu près tous les documents PDF, dans la plupart des langues, à partir du moment où ils ne sont pas protégés par mot de passe. Parfois, Google utilise également des techniques d'OCR pour scanner et numériser des images contenant elles-mêmes du texte dans le fichier PDF.

- En revanche, les images présentes à l'intérieur d'un fichier PDF ne sont pas indexées par Google Images.

- Les liens présents dans les fichiers PDF sont en revanche traités comme dans une page HTML. Ils peuvent donc passer du PageRank à un autre document (ce qui signifie qu'un document PDF dispose lui-même d'un PageRank). En revanche, le paramètre "nofollow" ne fonctionne pas dans ces fichiers.

- Pour ne pas voir un document PDF indexé, le mieux est d'insérer un X-Robots-Tag: noindex dans l'en-ête HTTP utilisé.

- Le référencement et le positionnement d'un fichier PDF est souvent similaire à celui d'une page HTML.

- Il est préférable de ne pas proposer le même contenu en HTML et en PDF, car cela peut génèrer des risques de duplicate content. Dans ce cas, il vaut mieux indiquer la version canonique (originale) - et pas la dupliquée - dans le Sitemap du site et/ou utiliser la balise "link rel canonical" dans la version HTML pour indiquer quelle est la version favorite.

- Le titre utilisé par Google pour ce type de document vient de deux sources : la métadonnée "TITLE" à l'intérieur du document (à renseigner en priorité) et le texte d'ancre des liens pointant vers ce fichier. Les deux semblent cependant importantes.

Voici également une vidéo de Matt Cutts, publiée il y a quelques jours, qui traite de ce sujet :


Source de l'image : Google

Articles connexes sur ce site :
- PDF Quick View : un viewer PDF dans les résultats de Google (13 octobre 2009)
- Google commence à scanner des documents et à les proposer dans ses résultats (4 novembre 2008)
- Google Docs intègre le PDF (18 juin 2008)
- Quelques guides PDF sur le référencement (11 avril 2007)