Depuis le mois d'avril dernier, le moteur de recherche Google a connu de nombreux problèmes de désindexation ou de mauvaise indexation de contenus. Dans un nouveau post sur son blog pour webmasters, certaines explications sont fournies sur ces récents soucis, avec la promesse d'une meilleure communication à l'avenir...

On le sait, Google a récemment connu (notamment en avril et mai dernier) plusieurs problèmes d'indexation, qui ont créé de nombreux soucis de mise à jour de l'index du moteur de recherche. Certains observateurs ont également identifié de nouveaux problèmes il y a quelques jours.

Bref, ces soucis devenaient fréquents et Google a estimé qu'il était temps de fournir quelques informations à ce sujet. C'est ce qu'il vient de faire sur son blog pour webmasters par l'intermédiaire d'un post signé par Vincent Courson.

Quelques explications sur les différents incidents d'indexation

L'article explique ainsi que la firme de Mountain View utilise de nombreux datacenters un peu partout dans le monde et que ces datacenters sont synchronisés en continu pour renvoyer, le plus souvent possible, la même information et avoir l'index le plus similaire sur chacun d'eux, en fonction de la variation et des modifications des pages web crawlées à un temps T. Un problème est pourtant survenu, le 5 avril dernier (un vendredi qui plus est), lors d'une synchronisation de datacenters qui s'est mal passée, ce qui a généré un bug amenant la perte d'une partie de l'index du moteur de recherche. Un index de backup (sauvegarde) a pu être réinstallé en quelques jours jusqu'à une remise à jour du système le 11 avril.

Là-dessus, suite au bug sur la synchronisation de l'index sur les datacenters, c'est la Search Console qui a commencé à renvoyer des données parfois incohérentes, de façon finalement logique : les données de base étant erronées, les rapports de la Search Console ont suivi la même voie. Le retour en arrière sur un index sauvegardé au préalable n'a pas facilité la gestion des données. Les bugs de la Search Console ont donc été traités une fois que les bugs d'indexation étaient fixés, soit plusieurs jours après le début du phénomène. Les corrections, débutées le 15 avril, se sont terminées le 28 du même mois.

Pour faire bon poids, et a priori sans rapport avec les soucis précédents, c'est l'outil Google News qui a connu ensuite des problèmes d'indexation et de redirections intempestives.

Suite à ces soucis à répétition, Google a essayé de communiquer pour expliquer ce qui s'était passé, sur Twitter, dans la Search Console et son aide en ligne.

Des décisions prises pour mieux communiquer à l'avenir

Bref, tous ces incidents ont mené Google à mettre en place des actions dues à leur "culture post-mortem" pour éviter que ce type de phénomène ne se reproduise. Des décisions ont été prises pour une meilleure communication à ce sujet avec les webmasters, à savoir :

  • Explorer des moyens de partager plus rapidement l'information dans la Search Console elle-même sur les bugs détectés, et faire en sorte que cette information serve de point de référence principal aux webmasters pour vérifier les problèmes, au cas où ils soupçonneraient des pannes.
  • Afficher plus rapidement des avertissements sur la page des anomalies de données de la Search Console (si la perturbation est visible à long terme dans les données de la Search Console).
  • Continuer à tweeter aussi vite que possible pour rassurer rapidement les webmasters que les ingénieurs travaillant sur le moteur sont au courant et que le problème est de leur côté.

Dernièrement, un nouveau problème a permis à Google d'expérimenter ces nouvelles initiatives et stratégies de communication. En effet, le 22 mai dernier, pendant le traitement de certaines URL, le "système de gestion des doublons a manqué de mémoire après une mise à niveau prévue de l'infrastructure, ce qui a entraîné l'arrêt du traitement de toutes les URL entrantes." Voici ce qui s'est passé exactement ensuite, comme Vincent Courson l'explique sur le blog :

  • Nous avons remarqué le problème (vers 5h30 du matin, heure de Californie, 22 mai) ;
  • Nous avons tweeté sur le souci en cours (vers 6h40, heure de Californie, le 22 mai) ;
  • Nous avons tweeté sur la résolution du problème (vers 22h, heure de Californie, le 22 mai) ;
  • Nous avons évalué le fait de faire une mise à jour de la page "Data Anomalies" dans le Centre d'aide de la Search Console, mais nous avons décidé de ne pas le faire car nous n'avions pas détecté d'impact à long terme pour la majorité des données de la Search Console ;
  • La confusion que ce problème a créé pour beaucoup d'entre nous a confirmé nos conclusions antérieures selon lesquelles nous avons besoin d'un moyen de signaler plus clairement dans la Search Console elle-même qu'il pourrait y avoir une perturbation de l'un de nos systèmes ayant un impact sur les webmasters. Une telle solution pourrait prendre plus de temps à mettre en œuvre. Nous communiquerons sur ce sujet à l'avenir, au fur et à mesure que nous aurons d'autres nouvelles ;
  • La semaine dernière, nous avons également eu un autre problème d'indexation. Comme le 22 mai dernier, nous avons twitté pour faire savoir aux personnes concernées qu'il y avait un problème, que nous travaillions à le régler et quand celui-ci a été réglé.

La conclusion de l'histoire et la morale de la chanson ? Restez connectés sur les différents canaux de communication de Google pour tout ce qui est du SEO et de la technique (indexation, etc.) :

Avec tout cela, vous devriez être plus rapidement au courant à l'avenir des différents problèmes survenants sur le moteur de recherche Google à l'avenir…

Mais n'oubliez pas : le meilleur moyen de vous tenir au courant de l'actualité du SEO et des moteurs de recherche, c'est de lire Abondance tous les matins ! 🙂

Photo d'un datacenter Google. . Source de l'image : Google