Googlebot ne crawle pas plus de 10 Mo de code source !

John Mueller a indiqué dans un hangout que la limite de crawl pour une page web et son code source se situait actuellement à 10 Mo. Ca laisse un peu de marge...

Petite info de John Mueller dans un hangout reprise par le site Search Engine Roundtable : la limite pour le crawl d'un code source par Googlebot est établie aux alentours de 10 Mo. Au-delà, le contenu ne sera pas indexé.

En même temps, on se demande bien quel code HTML peut dépasser une telle limite, déjà énorme pour un code HTML. En revanche, elle peut être crédible pour d'autres formats (PPT, DOC, XML, etc.). Rappelons qu'aux début de Google, cette limite avait été fixée à 101 Ko, ce qui avait créé la "légende" selon laquelle il ne fallait pas dépasser les 100 liens sortants par page.

L'indication sur la limite à 10 Mo du crawl se trouve dans la vidéo ci-dessous (à partir de 31'25") :



Source de l'image : YouTube