Après avoir exploré la configuration de l'outil Screaming Frog le mois dernier, faisons place ce mois-ci à deux problématiques importantes : l'analyse de la structure du site (profondeur de crawl, URL, codes renvoyés, etc.) et détection du contenu dupliqué, avec de nouvelles fonctionnalités très intéressantes qui ont dernièrement fait leur apparition sur le logiciel dans ce domaine.

 
Screaming Frog est un crawler fréquemment utilisé par les référenceurs : véritable boîte à outil du SEO, il permet non seulement de crawler des sites Web pour effectuer des analyses poussées, mais également de récupérer de nombreux éléments sur les pages via des expressions régulières, des sélecteurs CSS ou le langage Xpath. Par ailleurs, il dispose de plusieurs connecteurs avec des outils externes (Google Search Console, Google Analytics, Ahrefs, etc.) afin de qualifier les URL pour permettre d’identifier rapidement les KPI liés à des pages spécifiques : nombre de liens externes, clics, temps de chargement,…

Régulièrement mis à jour, cet outil se voit doté de nouvelles fonctionnalités parfois discrètes et peu connues. Nous verrons dans cette série d’articles autour de Screaming Frog Seo Spider, la façon dont un crawl doit être configuré, les fonctionnalités intéressantes de l’outil, mais surtout la façon dont il faut analyser les données pour déployer une stratégie d’optimisations SEO. Rappelons également que cet outil est disponible pour 3 familles de systèmes d’exploitation : Windows, MacOS, et Linux (distribution Ubuntu).

Avant de lancer un crawl, il est nécessaire de configurer un certain nombre de paramètres : en fonction des sites, il peut être utile de crawler (ou non) certains éléments comme les images ou les fichiers JS et CSS, et le comportement du crawler pourrait ne pas permettre de détecter certaines problématiques. Nous allons voir dans cet article les principaux éléments à paramétrer avant de lancer un crawl.

Stockage des crawls

Mode Base de données

L’outil dispose de 2 modes de stockage : « Memory Storage » et « Database Storage ». Par défaut, il permet de lancer des crawls en utilisant la mémoire vive de l’ordinateur (Memory Storage), pour ensuite les enregistrer sous la forme de fichiers portant l’extension « .seospider ».

La limite de 2Go par défaut peut être augmentée en fonction de l’importance des crawls à réaliser et des éléments récupérés (Menu Configuration > System > Memory Allocation), mais il est inutile d’allouer plus de 50% de cette mémoire, ce qui ralentirait le fonctionnement du système d’exploitation et serait contre-performant.

[Cet article est disponible sous sa forme complète pour les abonnés du site Réacteur. Pour en savoir plus : https://www.reacteur.com/2020/11/screaming-frog-comment-bien-interpreter-un-crawl.html]

Screaming Frog : comment bien interpréter un crawl

Un article écrit par Aymeric Bouillat, Consultant SEO senior chez Novalem.