> > La commande "site:" est-elle fiable ?

La commande "site:" est-elle fiable ?


Notez cet article

Aujourd'hui, la taille des index des 3 principaux moteurs de recherche mondiaux est supposée approcher les 20 à 25 milliards de pages, assez proches, quantitativement parlant, les uns des autres. Celui d'Exalead (le seul à communiquer officiellement sur ce point) atteignant 8 milliards de pages (très exactement 8 002 311 606 pages si l'on en croit sa page d'accueil ce matin...).

Bien sûr, le contenu de ces index n'est pas identique d'un moteur à l'autre, même s'il existe obligatoirement une zone de recouvrement. Cependant, on pourrait penser que, grosso modo, l'indexation de certains sites web est, quantitativement, assez proche, en termes de nombre de pages indexées par ces quatre leaders. Cette notion se mesure grâce à l'opérateur "site:" (exemple : site:blog.abondance.com) sur chacun des 4 moteurs.

Or, si on effectue ce type de recherche, on s'aperçoit très rapidement que les résultats sont totalement disparates et qu'aucune unité ne semble décelable. Voici un petit test que nous avons fait sur 10 URL, choisies de façon aléatoire (les recherches ont toujours été faites avec l'option "Tout le Web" cochée, pour chaque site web indiqué, nous avons rapporté le nombre de résultats renvoyés par chaque moteur avec la syntaxe "site:") :

Site:
www.lequipe.fr
190 000
27 105
296 000
104 182
www.monvoyageur.com
60 700
5 448
5 720
93 857
www.rue89.com
69 700
18 845
95 300
12 205
www.programme.tv
192 000
2 444
6 500
381 061
abondance.com
4 390
4 174
105 000
8 104
www.tf1.fr
2 260
5 751
5 660
710
www.aufeminin.com
893 000
21 091
51 500
806 845
skyrock.com
7 890 000
132 697
1 180 000
1 787 529
blogspot.com
122 000 000
8 918 196
7 590 000
34 386 547
searchengineland.com
5 030
6 140
142 000
639

Les écarts, d'un site et d'un moteur à l'autre, sont considérables !

Que peut-on déduire de ces chiffres ? Plusieurs choses, au choix :

- Que l'opérateur "site:" renvoie des résultats erronés, ce qui serait vraiment dommage...

- Que les index des différents moteurs n'ont absolument pas la même taille (on m'aurait menti ?? 🙂 )

- Que certaines sites web ne sont pas "égaux" devant les moteurs de recherche, certains sites étant très bien indexés par un moteur et très mal par d'autres, pour des raisons inconnues.

- Que les moteurs gèrent plus ou moins bien des phénomènes de "duplicate content" à l'intérieur d'un site.

- Il serait intéressant, par ailleurs, de surveiller ces chiffres pour un même site web, mais au niveau de leur variation dans l etemps. Peut-être que, là aussi, nous pourrions découvrir des surprises...

Avez-vous remarqué de tels phénomènes sur vos sites web ou sur d'autres ? J'avoue que cela me laisse assez perplexe...

Commentaires : 13
  1. Anonymous 28 avril 2008 at 9 h 10 min

    Le nombre de pages indexé est invérifiable puisque les moteurs n'autorisent pas de les afficher toutes.

    Essaye de retrouver des mots ou des phrases peu courantes dans un site (y compris des fautes d'orthographe/grammaire), cela peut donner une meilleure idée de leur indexation.

    EXEMPLE
    site:blogspot.com "the were all drunk"
    un résultat dans google
    3 dans yahoo

  2. TOMHTML 28 avril 2008 at 9 h 51 min

    Je vote aussi pour l'histoire du duplicate content, puisque certaines pages sont accessibles depuis plusieurs URL, certains moteurs filtrent, pas les autres.

  3. Sandrine 28 avril 2008 at 11 h 25 min

    Duplicate content également, Yahoo! ayant d'ailleurs tendance à intégrer des variables de session ou de tracking dans les URL qu'il indexe... Chose que Google filtre naturellement.
    J'ajoute également que la commande site: de Live est loin d'être fiable : http://www.search-engine-feng-shui.com/2007/10/03/le-casse-tete-des-pages-indexees-sur-livecom/

  4. Abondance 28 avril 2008 at 11 h 33 min

    merci pour ces avis.
    En même temps, j'ai du mal à penser qu'une "simple" gestion de duplicate content suffise à expliquer de tels écarts dans les résultats renvoyés... Ils sont parfois énormes d'un moteur à l'autre pour certains sites...
    A+
    Olivier

  5. Anonymous 28 avril 2008 at 18 h 16 min

    j'abonde pour le duplicate: un site dont je me suis occupé était à 35 000 pages dans google (avec des tas de pages à contenu similaire en filtrant la commande site:) et dans le même temps à 2 000 000 pages dans yahoo (url avec variables de session)
    Après "réparation" (réécriture/redirection 301 des pages avec variables), le site est monté à 900 000 url dans google (et a fait de jolis bonds en 1ère page dans les SERP)
    Sur mars, nouveau souci à cause du filtre de réécriture, le site est monté à 31 000 000 dans google (oui 31 millions!) puis retombé à 900 000 dès que réparé...
    Pendant tout ce temps, il est resté autour de 50 000 url indexés dans live et toujours 2 000 000 dans yahoo...
    Indéniablement pour moi, c'est donc le duplicate et la mauvaise gestion des url avec variables de session qui sont l'explication des tels écarts constatés!...

  6. David Wynot 30 avril 2008 at 10 h 54 min

    Cette URL semble se pencher sur le pb de façon pratique et syntaxique
    http://www.plus2net.com/articles/google-site.php

  7. Abondance 30 avril 2008 at 11 h 01 min

    > Cette URL semble se pencher sur le pb de façon pratique et syntaxique

    Article vraiment bizarre, notamment au niveau des syntaxes proposées pour explorer les "supplemental results"... En tout cas, les pistes qu'il donne semblent erronées ou trop anciennes selon moi...
    Cordialement

  8. alex de référencement blog 1 mai 2008 at 18 h 24 min

    Salut à tous,

    La commande site n'est évidemment pas fiable.

    Et sur Google pour une même requête:
    site:www.referencement-blog.net

    283 résultats en page 1
    http://www.google.fr/search?q=site:www.referencement-blog.net/&hl=fr&start=0&sa=N

    214 en page 22
    http://www.google.fr/search?q=site:www.referencement-blog.net/&hl=fr&start=210&sa=N

    Finalement il n'y a que Yahoo a tenir ses résultats de bout en bout.

  9. Moucki 2 mai 2008 at 8 h 51 min

    Peut-on comparer la commande site: et link: en termes de fiabilité ? Pour ma part, link: me semble vraiment très aléatoire. En tous cas, les résultats n'évoluent que très peu, voire pas du tout... parfois sur des mois ! Alors que les liens externes présentés dans GG Webmaster Tools indiquent des variations bien plus crédibles.

  10. Laurent 2 mai 2008 at 8 h 59 min

    Ce n'est qu'un aspect, mais ce serait sans doute intéressant d'aller plus loin et d'avoir les informations suivantes :
    - un sitemap est-il proposé aux moteurs ? combien contient t'il d'enregistrements ? avec quelle fréquence est t'il rafraichi ?
    - un urlist est t'il proposé aux moteurs, combien contient t'il d'enregistrements ? avec quelle fréquence est t'il rafraichi ?

    Cela permettrait (peut être...) de connaître l'efficacité réelle et l'usage que les moteurs font de ces informations.

  11. Kilroy 5 mai 2008 at 7 h 31 min

    Il y a d'autres facteurs qui peuvent faire varier les résultats de la commande site:, notamment le fait que certains moteurs éliminent mal les pages en 404. Sur certains sites on a donc des pages de plusieurs versions indexées.
    Plus globalement, Google semble "péter les plombs" au delà de 1000 résultats et ses estimations sont très aléatoires.
    Celles de MSN le sont encore plus. Il faut aller à la dernière page de résultats pour savoir combien d'URLs il indexe et il est impossible d'avoir des données au delà de 1000 pages.
    Bref, la commande site peut être utilisée pour suivre l'évolution de l'indexation, mais guère plus...

  12. Kmenslow 6 mai 2008 at 12 h 06 min

    Comment expliquer les variations
    -Sur google :
    site:www.lequipe.fr/ --> 211000 pages
    et
    site:www.lequipe.fr --> 223000 pages

    -Sur live.fr :
    site:www.lequipe.fr/ --> 249000 pages
    et
    site:www.lequipe.fr --> 33500 pages

  13. BLANCHON Vincent 13 mai 2008 at 10 h 09 min

    Bien sur que la commande site: de Google n'est pas fiable. Google ne veut pas trop communiquer sur ces chiffres que ce soit pour la commande site:, link: ou quoi que ce soit. Par contre les chiffres dans les comptes pour webmasters sont exacts lorsqu'ils viennent d'être mis à jour. Enfin il me semble ...

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site