> > Les dangers de l'indexation rapide...

Les dangers de l'indexation rapide...


Notez cet article

Cela fait plusieurs jours que de nombreux blogs - et celui d'Abondance dans les premiers - se sont fait l'écho de changements dans la durée d'indexation des robots de Google, qui se sont fait dernièrement très rapides pour mettre à jour les informations auxquelles ils accèdent. On est proche, dans certains cas, d'une indexation en temps réel...

Cela peut paraître une grande nouveauté, un réel progrès que cette vitesse d'indexation record, et pourtant, le phénomène n'est pas récent, loin de là... Certains dinosaures, parmi vous, se souviennent peut-être d'Infoseek. Il a été l'un des premiers moteurs de recherche sur le Web (si ce n'est le premier digne de ce nom) en janvier 1994 (eh oui, il y a plus de 13 ans...), créé par Steven Kirsch avant d'être vendu à Disney pour devenir un portail un peu quelconque nommé Go.com.

Infoseek, à ses débuts, prenait en compte de façon immédiate les sites qui lui étaient soumis au travers de son formulaire "Add url".En d'autres termes, vous soumettiez un site au moteur au travers du formulaire fourni en ligne et, quelques minutes plus tard, le site était indexé et "trouvable" au travers d'une requête... On en voit d'ailleurs encore la trace ("Submit a Web page to Infoseek's index by typing the URL in the space provided. New pages or updates to pages previously in the index are searchable within minutes. Dead URLs reported through Add URL are deleted from the index...") grâce au service Wayback Machine...

Je me souviens très bien que cette fonction avait posé de gros soucis de spam au moteur de recherche. Tous les référenceurs de l'époque s'en étaient donné à cœur joie : ils optimisaient une page, la soumettaient, vérifiaient son positionnement, et s'ils n'étaient pas satisfaits de ce dernier, ils réoptimisaient la pge, la resoumettaient, revérifiaient, etc. Jusqu'à atteindre les première positions. L'indexation temps réel permettait ainsi d'obtenir de bons résultats en quelques heures de travail (d'autant plus que les moteurs, à cette époque-là, n'étaient pas armé contre le spam comme ceux d'aujourd'hui...).

Le même type de problème peut-il arriver à Google du fait de son indexation rapide, constatée ces temps derniers ? A mon avis, c'est possible et le moteur de recherche devra y prendre garde même si, on peut s'en douter, il a largement réfléchi au problème avant de lancer ses spiders à l'abordage instantané du Web !!

Commentaires : 17
  1. Kilroy 26 juillet 2007 at 9 h 46 min

    L'indexation rapide semble limitée à certains sites, probablement à ceux qui ont un trustrank suffisant pour être fiables pour Google.
    Par ailleurs, y a t'il des exemples d'indexation en quelques heures sur des sites autres que des blogs ou des sites présents sur Google News ? J'ai regardé les dates de mise en cache sur quelques sites, mais ça ne descend que rarement en dessous d'1 jour.
    N'est il pas probable que Google utilise les pings envoyés à Blogsearch pour rafraîchir les contenus de l'index global ?

  2. LolZ 26 juillet 2007 at 10 h 00 min

    Cela réduit aussi, pour le meilleur et pour le pire, les différences entre le site original et la version en cache chez Google.

  3. Nicolas 27 juillet 2007 at 8 h 48 min

    Enfin pas de fautes d'orthographe !
    C'est pas trop tôt !

  4. Abondance 27 juillet 2007 at 9 h 03 min

    > Enfin pas de fautes d'orthographe !

    Euh, pas de faute d'orthographe où ça ??
    Merci
    cordialement

  5. Anonymous 27 juillet 2007 at 18 h 22 min

    il n'ya pas que l'optimisation d'une page d'un site pour le placer en premiere page de google.

    il ne faut pas oublier le nombre de liens pointant vers la dite page.est ça on ne peut pas tricher.

    surtout que google prend en compte le nombre de domaine pointant vers cette page.l'importance des sites pointants le traffic et plein d'autres choses etc.....

    arretons de fantasmer.

    lol

  6. NPousseur 29 juillet 2007 at 10 h 04 min

    Bonjour,

    Comme l'indique kilroy, le 26 juillet, cela semble se limiter aux sites avec un traffic important.

    Ce que je tiens à souligner ici est que l'indexation des images semblent être toujours aussi espacées (3 à 6 mois ???)
    Pour preuve, à la recherche sur Google - braille coupvray pousseur- vous atteignez 2 de mes sites (http://www.vistes-p.net et http://www.traces-h.net) dont les photos possèdent en "alt" les mêmes termes. Mise à jour le 1er le 5 juillet, l'autre le 15) introuvables sur google images

    Par ailleurs, visites-p a été mis à jour hier (3 pages... dont http://www.visites-p.net/dptmt/dptmp075g.htm) , avec renvoi du sitemap... dernier crawl de google 21 juillet... - la page ci-dessus reste introuvable pour l'instant sur google

    Par contre la recherche - les arcs pousseur - pour une mise en ligne en février 2007 est ok (recherche images ou txt...)

    Un autre exemple : les termes - graph'mur pousseur - donne en images une page mise en ligne avril 2007 (http://arts-cultures.cef.fr/txt/catechese01.htm#a17), mais pas celles du 17/06 (http://www.incertitudes-p.net/col/graphmur001.html.

    L'indexation des images par Google reste pour moi assez difficile à comprendre (malgré l'excellent article paru dans la lettre des abonnés). Dommage car c'est un sujet incontournable pour les photographes comme moi-même...

  7. Denis Szalkowski 29 juillet 2007 at 13 h 26 min

    Il me semble que le problème se pose autrement. Les moteurs indexent sans aujourd'hui différencier la nature des contenus malgré la présence d'outils de recherche spécifiques. Depuis Altavista, nous en revenons toujours à l'éternelle question de la pertinence.

    Les blogs par leurs outils extrêmement pertinents et efficaces (pings, sitemap) sont plus réactifs. C'est que ce semble privilégier Google depuis de nombreuses années au détriment de la recherche de la pertinence. Cette nouvelle donne est sans doute liée au parc d'ordinateurs dont dispose le moteur.

    Cela engendre de réels difficultés à référencer les sites institutionnels au point où nous sommes amenés à créer des outils ou utiliser des CMS afin d'avoir la même "reconnaissance".

    Lorsque vous parlez d'indexation en temps réel, je crois qu'il vaudrait mieux parler d'un horizon de 24-48 heures.

    Ce qui est plus étonnant, c'est de savoir pour quelle raison la date et l'heure font que le billet propulsé va être situé dans les tous premiers. Ces critères n'apparaissent pas clairement dans les formules supposées du ranking. La consolidation dans le temps du classement par rapport aux mots-clés recherchés tendrait à nous amener à penser le contraire. A moins que ce ne soit que deux aspects des modalités du même algorithme.

    J'anime un blog politique. L'audience a explosé, par inadvertance, suite à un billet sur les perles du bac 2007. Cela semble vérifier quelque peu mon hypothèse. Pour nous référenceurs, certains aspects que nous pouvons en retirer sont majeurs ! Et notamment, un nouvel élément : l'anticipation événementielle.

  8. Denis 1 août 2007 at 11 h 24 min

    Je viens d'effectuer un test. L'indexation en temps réel semble fonctionner avec mon blog politique. Il est sous WordPress + ping + Gsitemap.

    Mon blog perso a bien été indexé. Il est accessible à partir de Blogsearch, mais toujours pas sous Google. Il est sous DotClear ° Ping + Sitemap. Le billet a été rédigé à 9 h 00 ce matin

  9. Anonymous 2 août 2007 at 8 h 55 min

    A quand aussi l'effacement rapide des pages dans l'index de GG ? Car certes il indexe en temps réel, il garde des vieilles pages pourries aussi

  10. tophe 7 août 2007 at 8 h 28 min

    A vrai dire, cela semble relativement indépendant des histoires de Ping et de SiteMaps. Je m'occupe d'un site de contenu et d'information hardware/logiciel lancé il y a moins d'un an et aujourd'hui, je constate que de nombreuses pages (news), sont indexées aussi vite sur Google Actu que dans le moteur Google. Le tout se fait sans pinger Google ni mettre à jour le site maps. Visiblement le bot passe bien plus souvent. Peut-être est-ce lié à une évolution rapide de mon trustrank, ou autre chose, mais depuis la dernière mise à jour c'est flagrant : là ou il fallait souvent 48 H (voir plus) pour qu’une page soit visible dans l’index de Google, désormais il ne faut que quelques heures voir, parfois, à peine 30 minutes. En clair, le bot passe bien plus souvent et prend les nouveautés à la manière de Google Actus.

  11. Jits 7 août 2007 at 8 h 46 min

    Bonjour, Denis Szalkowski

    Quand tu parles d'anticipation evennementielle, je te rejoint sur toute la ligne. Les blogs ont un gros avantage de ce point de vu là par rapport à des sites plus classiques, qui plutôt que mettre à jour une page deja existante (l'index pour les blogs !) craient la plupart du temps une nouvelle page qui ne beneficie pas du ranking de l'index.

  12. Yann 7 août 2007 at 9 h 18 min

    Effectivement, un problème de spam. Encore que ... le positionnement d'un article restant pondéré par les filtres classiques de popularité et de confiance, seuls des résultats de qualité devraient se voir indexés rapidement.

  13. Anonymous 7 août 2007 at 9 h 51 min

    Personnellement je trouve Google de moins en moins pertinent et je pense qu'il est temps de développer qq chose de plus fin parce que Google est la cible de tous les margoulins du référencement et il ne sait plus comment faire le tri dans la masse d'inepties qu'il indexe...

  14. Nasser Khelloufi 7 août 2007 at 14 h 12 min

    J'éspere que ca ne va pas beaucoup modifier les classements.

  15. Abondance 7 août 2007 at 14 h 15 min

    Bonjour
    Matt cutts nous en dit plus aujourd'hui sur son blog dans un post intitulé "Minty Fresh Indexing" :
    http://www.mattcutts.com/blog/minty-fresh-indexing/
    Cordialement

  16. DOUSSAN 10 août 2007 at 7 h 38 min

    Petit comparatif édifiant pour moi.
    Entre rapidité d'indexation d'une vidéo, d'un blog et de la page de mon dernier site et la position d'indexation.
    Recherche sur l'expresion : Améliorer son équilibre
    Gagant une de mes vidéos:

    Comment améliorer son équilibre sur son Long Board ? - Vidéos ...Comment améliorer son équilibre sur son Long Board ? Par le Skate, selon mon coach Quand on n'a pas pratiqué dans sa jeunesse le patin à [...]
    http://www.wideo.fr/video/iLyROoaft7ch.html
    Deuxième place un de mes blog
    longboard34.blogs.myfreesport.fr/archive/2007/08/07/comment-améliorer-son-équilibre-sur-son-long-board.html
    Ma page qui est rewritée n'apparait toujours pas, et cela semble cohérent vu la différence du PageRank d'un grand Blog, d'une chaîne de télé et d'un site ayant que 1119 liens externes d'après Google SiteMap.
    Cette page n'étant pas encore mise dans mon sitemap.
    Bonne journée et ALOHA

  17. Anonymous 17 octobre 2007 at 5 h 52 min

    Il semble qu'il y a un rapport tres étroit avec la publication de flux RSS sur blogsearch. Même si votre site n'est pas un blog, vous pouvez créer un flux rss et lenvoyer a blogsearch. J'ai tout indexé mes pages en moins d'une heure aujourdhui... Cependant, toujours rien dans le vrai moteur google. Quelqu'un sait pourquoi?

Un site du Réseau Abondance | Olivier Andrieu | Contact | Publicité sur le site