> > Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO

Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO



 
Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO
4.5 (90%) 8 votes

Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO

Lors de la migration d'un site en HTTPS, il est souvent intéressant d'obtenir la liste des pages encore en HTTP et celles déjà en HTTPS indexées par Google, afin de suivre le (bon) déroulé des opérations. Voici une syntaxe d'interrogation avancée de Google qui vous permet d'obtenir ces informations de façon simple et rapide...

La migration d'un site en HTTPS est courante (voire obligatoire) à l'heure actuelle. Lorsque ces actions sont mises en place, il est nécessaire de vérifier, après la mise en ligne, que toutes les pages du site en HTTP sont bien à nouveau indexées, cette fois en HTTPS, par Google. Il existe plusieurs façons de faire ce suivi, dont l'une avec la syntaxe "site:". Cependant, il faut bien utiliser cet opérateur car par défaut, il ne fait pas la distinction entre les URL en HTTP et celles en HTTPS. Voici donc une petite astuce pour obtenir les bons résultats et suivre au mieux votre migration...


Comment obtenir la liste des URL indexées par Google en HTTP et HTTPS ? Vidéo SEO Vidéo SEO, vidéo proposée par Olivier Andrieu (Abondance).
Source de l'image : Abondance

Voici quelques vidéos déjà publiées sur un sujet connexe :
- La syntaxe avancée d'interrogation de Google (27 septembre 2016).
- Nouveau Site Web et Compte Search Console (6 juin 2017).
- HTTPS : En 2017, Allez-y ! (10 janvier 2017).

Voici également quelques articles complémentaires (listés par ordre chronologique) pour approfondir le sujet :
- La syntaxe site: sur Google, pas très exacte ? c'est pas faux... (6 octobre 2010).
- Infographie : Syntaxe de recherche Google (19 janvier 2012).
- Google : bug sur la syntaxe "site:" (24 mai 2013).
Etc.

N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.


Commentaires : 27
  1. Ricardo Da Silva 29 août 2017 at 14 h 39 min Reply

    Merci pour cette astuce.

  2. Jo 29 août 2017 at 16 h 38 min Reply

    Votre video 57 semblait en conclusion conseiller d'utiliser search console ("état de l'indexation") pour savoir ce qui en est de l'indexation du https.

    Vu les grandes divergences possibles entre le chiffre de la commande site (ou site-inurl) et celui de search console, lequel est le plus fiable et le plus rapidement mis à jour pour le https?

    Search console pour le https me semble-t-il. La commande site étant assez aléatoire et variable (entre autres en fonction du data center).

    • Olivier Andrieu 29 août 2017 at 16 h 42 min Reply

      Pas évident. A mon avis, il faut utilsier les 2.
      - Commande "site:" plus souvent mis à jour mais moins fiable.
      - Search Console plus fiable mais moins souvent mise à jour.
      Aucune des 2 possibilités n'est parfaite. Perso, j'utilise les 2...

  3. Vladkergan 29 août 2017 at 17 h 04 min Reply

    Etant donné que la chaîne http est inclue dans https, site:www.abondance.com inurl:http listera aussi bien les résultats http que https. Inurl ne filtre pas sur le protocole, mais uniquement sur la présence de la chaîne dans l'url...

    Pour ne lister que le http, j'utilise du coup uniquement site:www.abondance.com -inurl:https (pour lister tout ce qui n'utilise pas le protocole https).

    • Olivier Andrieu 29 août 2017 at 17 h 16 min Reply

      Oui, il y a "http" dans le titre de l'article donc dans l'URL aussi :))))

  4. Vladkergan 29 août 2017 at 17 h 19 min Reply

    Pas sûr de comprendre votre dernier commentaire.

  5. Olivier Andrieu 29 août 2017 at 17 h 22 min Reply

    La page https://www.abondance.com/actualites/20170829-18374-obtenir-liste-url-indexees-google-http-https-video-seo.html ressort sur la requête "site:www.abondance.com inurl:http" puisqu'il y a le terme "http" dans l'intitulé de l'URL : "obtenir-liste-url-indexees-google-http-https-video-seo.html ".
    C'est un effet de bord qui va toucher toutes les pages qui ont le terme "http" dans l'URL ailleurs que dans le protocole. Mais ça ne concerne que peu de pages et il est facile de les éliminer de l'analyse.

  6. Adeline Lecellier 29 août 2017 at 17 h 24 min Reply

    Bonjour à tous, Comment forcer Google à désindexer ces pages qui restent en HTTP ? Cela fait presque 10 mois que nous sommes passé au HTTPS pourtant il reste encore + de 3000 pages en https dans l'état de l'indexation (search console).

    N'y aurai-il pas une solution pour soumettre à google les liens restant en HTTP pour qu'il les désindexe pour de bon ??

    Merci d'avance pour vos réponses, je creuse depuis quelques jours et je ne trouve pas l'info.

    • Olivier Andrieu 29 août 2017 at 17 h 25 min Reply

      Le chiffre de 3000 vient de la Search Console ou de la requête site: ?

      • Adeline Lecellier 29 août 2017 at 17 h 27 min Reply

        Sur la Search Console : 3080 pages indéxées
        Dans la requête site: il y aurait 3030 résultats

        • Olivier Andrieu 29 août 2017 at 17 h 32 min Reply

          Un sitemap XML avec les URL en HTTP et lastmod à la date du jour ?

          • Adeline Lecellier 29 août 2017 at 17 h 37 min

            Comment fait on pour soumettre les urls HTTP restantes à Google ? Il y a t-il un moyen d'exporter ces 3080 pages "http" indéxées ?

            Sachant que les urls ont changés (optimisation seo) depuis la dernière indexation.

        • Olivier Andrieu 29 août 2017 at 17 h 33 min Reply

          Une page listant ces URL avec des liens, puis "Explorer comme Google" dans la Search Console ?

        • Olivier Andrieu 29 août 2017 at 17 h 34 min Reply

          Sinon, vous avez fait un crawl du site pour vérifier que ces URL ne sont plus joignables en HTTP dans l'arbo inetrne (un grand classique) ?
          Même s'il y a des 301, ça bloque souvent Google. Toute l'arbo doit être en HTTPS...

          • Adeline Lecellier 29 août 2017 at 17 h 40 min

            L'arborescence est passée intégralement en https...

  7. Vladkergan 29 août 2017 at 17 h 26 min Reply

    Ok, je n'avais en effet pas fait attention à cela.

  8. Olivier Andrieu 29 août 2017 at 17 h 39 min Reply

    @ Adeline Lecellier
    > Comment fait on pour soumettre les urls HTTP restantes à Google ? Il y a t-il un moyen d'exporter ces 3080 pages "http" indexées ?

    Malheureusement non, il faut bidouiller avec la requête "site:" + des mots clés.
    Le jour où Google nous donnera de vrais outils pour optimiser proprement nos sites à ce niveau...

  9. Olivier Andrieu 29 août 2017 at 17 h 41 min Reply

    @ Adeline Lecellier
    > L'arborescence est passée intégralement en https...

    Vérifié avec un crawl complet du site ?

    • Adeline Lecellier 29 août 2017 at 17 h 46 min Reply

      Je vais refaire un crawl du site complet au plus vite afin de vérifier. Merci beaucoup pour ces pistes 😉

  10. Stéphane C. 31 août 2017 at 12 h 56 min Reply

    Merci pour cette astuce Olivier, je me posais justement la question après avoir migré 2 sites en HTTPS.

  11. JULIE CHALAYER 4 septembre 2017 at 10 h 11 min Reply

    Connaissez vous un outil (autre que la search console) qui permette d'avoir un export exhaustif des urls d'un site?
    Merci

  12. vpissavy 5 septembre 2017 at 17 h 41 min Reply

    Merci pour cette astuce. En toute logique, la requête -inurl:https devrait donner le même nombre de résultats que la requête inurl:http ?? J'ai testé sur plusieurs sites sur lesquels je travaille et je n'ai pas du tout le même nombre de résultats alors qu'il n'y a pas les termes "http" dans les titres des contenus. Exemple avec le site http://www.elleadore.com:
    La requête : site:www.elleadore.com -inurl:https renvoie 1490 résultats
    La requête : site:www.elleadore.com inurl:http renvoie 2000 résultats
    Merci

    • Olivier Andrieu 6 septembre 2017 at 8 h 48 min Reply

      Les résultats renvoyés par la requête "site:" ne sont pas toujours très fiables sur la SERP 1. Je vous conseille de regarder les pages de résultats suivantes, le chiffre est souvent plus exact.
      Ensuite, il est toujours intéressant de compléter l'analyse par un crawl du site (par exemple avec Screaming Frog ou autre) pour s'assurer qu'il n'y a plus de pages en HTTP dans l'arborescence ou dans les liens. On a souvent pas mal de surprises à ce niveau...

  13. Philippe LAINE 6 septembre 2017 at 18 h 03 min Reply

    Olivier,
    sur le moment, je m'en suis voulu de ne pas avoir appliqué plus tôt ce filtrage inurl: à mon reporting sur l'indexation https / http. Merci donc pour cette astuce.

    Toutefois, quand on croise les données dans un tableau, les chiffres sont si incohérents...
    La commande site:www.manageo.fr inurl:http donnait 3 URLs tout à l'heure, je n'y crois pas une minute. Puisque je sais que de nombreuses pages en http se positionnent encore sur des mots clés.

    La commande site:www.manageo.fr inurl:https donne 838 000

    Pourtant, un site:www.manageo.fr/& donne 3 330 000 et non 838000 + 3

    De plus, la Search Console déclare avoir indexé près de 12 M en https et 675 000 en http...

    Décidément tout ça est bien difficile à exploiter et à interpréter et je sais que tu n'y es pour rien! D'ailleurs, en choisissant une méthode et en s'y tenant, son évolution est généralement cohérente dans le temps, à quelques incidents près.

    J'ai tendance à penser que le chiffre donné dans la search console correspond au nombre d'URLs distinctes indexables connues par Google, alors que la commande site: donnerait le nombre de pages jugées suffisamment intéressantes pour figurer dans les résultats de recherche. Comme un index secondaire et un index primaire.

Laisser un commentaire

(charte de saisie de commentaire)

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site