John Mueller a indiqué dans un hangout que la limite de crawl pour une page web et son code source se situait actuellement à 10 Mo. Ca laisse un peu de marge...
Petite info de John Mueller dans un hangout reprise par le site Search Engine Roundtable : la limite pour le crawl d'un code source par Googlebot est établie aux alentours de 10 Mo. Au-delà , le contenu ne sera pas indexé.
En même temps, on se demande bien quel code HTML peut dépasser une telle limite, déjà énorme pour un code HTML. En revanche, elle peut être crédible pour d'autres formats (PPT, DOC, XML, etc.). Rappelons qu'aux début de Google, cette limite avait été fixée à 101 Ko, ce qui avait créé la "légende" selon laquelle il ne fallait pas dépasser les 100 liens sortants par page.
L'indication sur la limite à 10 Mo du crawl se trouve dans la vidéo ci-dessous (à partir de 31'25") :
Source de l'image : YouTube |
Je pense comme Damien et Mathieu qu’il faut Ă©galement prendre en compte les ressources associĂ©es Ă la page comme le JS, le CSS et surtout les images qui peuvent ĂŞtre lourdes.
Je ne suis pas très Ă©tonnĂ© de cette nouvelle car, quand je me sers de la fonctionnalitĂ© Explorer comme Google de Webmastertools (ou Search Console depuis dernièrement) pour indexer une page, il arrive très souvent que le Googlebot n’arrive pas Ă rĂ©cupĂ©rer toutes les images de ma page. Je suis donc obligĂ© de rĂ©explorer pour qu’il rĂ©cupère bien toutes les ressources afin d’avoir ma page web complète. J’en dĂ©duis que les robots de Google connaissent des limites, sans doute techniques, pour bien parcourir la toile. Leur dĂ©cision de limiter la taille maximale d’une page web me semble donc pertinente.
En cherchant un peu dans le moteur de test, j’ai trouvĂ© quelques pages assez lourdes. C’est en effet bloquant de tomber sur de telles pages pour les moteurs qui chargent en mĂ©moire (pour premsgo) tous les mots clĂ©s d’une page en tableau.
Il faut donc limiter la taille du contenu d’une page a des choses raisonnable, qui a dĂ©couper le contenu et le rĂ©partir sur plusieurs ;
ex ;
– tech.r.o.free.fr 5Mo
– apef-services.fr 3,8 Mo
…
Je suis assez d’accord avec Damien. MĂŞme si 10Mo est très large, je doute que Google ne se contente que du fichier HTML en lui-mĂŞme, mais plutĂ´t de l’ecosystème de la page (js, css, images associĂ©es…). Dans ce cas ça peut plus vite monter, mĂŞme s’il y a du rab…:-)
Merci pour l’info !
Sauf erreur de ma part, il est fait mention de page, ce qui est une notion qui reste à préciser, surtout depuis que le bot peut faire des interprétations plus poussées (JS, CSS).
Si jamais les headers HTTP de la rĂ©ponse rentrent Ă©galement en compte dans cette limite, cela peut pour certains cas rajouter un volume consĂ©quent (le cas d’erreur du cookie d’1 Mo qu’on voit passer de temps en temps…)
Bref, cela restera des cas aberrants, mais malheureusement plus nombreux…