De nombreux outils proposent une visualisation des sites web. Ils sont cependant standards. En effet, afin de fournir un résultat quel que soit le projet, ils passent souvent par des opérations de simplification qui ne sont pas forcément souhaitées car souvent, nous voulons visualiser une information bien particulière. Dans cet article, nous vous proposons un paramétrage de l'outil Gephi qui vous permettra de distinguer la data spécifique qui vous intéresse, sans les filtres des outils classiques.

Notre objectif dans cet article est le suivant : visualiser si, dans un site web, les pages de même thématiques forment bien des clusters (des ensembles de pages liées entre elles) ou si, au contraire, elles sont traitées au même niveau et noyées dans l’arborescence du projet. Spoiler, nous cherchons à obtenir le graphique de la figure 1, sur lequel une couleur représente un thématique :

Fig. 1. Le résultat attendu.

La manipulation proposée vous permet de représenter n’importe quelle donnée avec une couleur qui lui sera associée.

Prérequis

Voici les prérequis pour obtenir la prévisualisation souhaitée :

  • Manipulation d’un crawler (Screaming Frog) pouvant extraire la liste des liens internes d’un site web ;
  • Manipulation d’Excel pour traiter facilement (nettoyer !) et sélectionner les listes d’URL, via un tableau, importer des csv et valider des listes avec la fonction RECHERCHEV par exemple ;
  • Connaissance de Gephi pour la visualisation de réseaux. Si vous n’avez jamais utilisé Gephi, vous pouvez commencer avec ces articles : https://makina-corpus.com/blog/metier/2016/seo-visualisation-de-site-allons-plus-loin-avec-gephi et https://www.seomix.fr/pourquoi-comment-utiliser-gephi-seo/
  • Travail sur un site techniquement correct : nous supposons que le site à examiner n’a pas de gros problème structurel (si c’est le cas, il vaut mieux les régler avant !) ;
  • Travail sur un site de quelques milliers de pages au maximum. Gephi n’est pas réputé pour sa stabilité ni sa maniabilité et il demande de la puissance de calcul. Pour les sites plus gros, d’autres outils devront être utilisés.

Préparation de la table des liens

Nous avons besoin de la liste des URL du site web, ainsi que de la liste des liens internes. Plusieurs crawlers du marché peuvent nous donner cette information, ici nous utilisons Screaming Frog, paramétré pour ne récupérer que l’information sur les pages html...

[Cet article est disponible sous sa forme complète pour les abonnés du site Réacteur. Pour en savoir plus : https://www.reacteur.com/2019/11/devoiler-la-reelle-structure-dun-site-web-avec-gephi.html]

Dévoiler la réelle structure d’un site web avec Gephi

Un article écrit par Laurent Peyrat, consultant SEO, fondateur de l'agence La Mandrette (https://www.lamandrette.com/).