Cela fait désormais plusieurs années qu'on nous parle de recherche vocale, voire de la "révolution" que cette nouvelle pratique va amener dans notre quotidien. Même si ce domaine reste de la R&D (nécessaire et indispensable ) aujourd'hui, il est important de bien comprendre son foisonnant écosystème, bien plus complexe que celui du "Search" classique. Il existe en effet de nombreux acteurs, de nombreux outils, de nombreux supports pour répondre à des questions vocales qui se posent sous des formes très différentes et qui vont donc amener un traitement spécifique. Voici un article pour vous aider à y voir plus clair pour obtenir la meilleure "audibilité" possible...

Par Olivier Andrieu

 

Lorsqu'on évoque la recherche vocale et l'optimisation des contenus pour cette nouvelle voie (voix ?) qu'on nomme l'audibilité, on lit souvent qu'il faut "être présent en position zéro (featured snippet) pour être vocalisé par l'assistant de Google".

Certes, cela est juste. Mais c'est surtout très partiel, car l'écosystème du vocal est aujourd'hui beaucoup plus large et complexe. On ne se trouve pas ici dans le domaine du SEO "classique" où on ne gère qu'un moteur (Google), au pire deux (Bing). En vocal, les acteurs sont plus nombreux et les technologies également, qui plus est pas toujours compatibles. Il nous semblait donc normal, dans cet article, de tenter de mettre en place une vision la plus large possible de cet écosystème pour mieux comprendre la stratégie à mettre en place dès lors qu'on veut donner une audibilité à son entreprise.

Finalement, on se retrouve aujourd'hui pour le vocal dans la même configuration que pour le SEO "classique" au début des années 90 où il existait de nombreux moteurs (Excite, Webcrawler, Infoseek, Lycos, puis Altavista, etc.), tout autant d'annuaires (Yahoo!, le Guide de Voilà, Nomade, l'Open Directory, etc.). Le monde du référencement naturel, comme on l'appelait à l'époque, était foisonnant et il fallait jouer sur plusieurs niveaux en même temps. Tout comme pour le vocal désormais. Et il y a fort à parier que dans quelques temps, ce domaine va se resserrer avec moins d'acteurs et de technologies, suivant la voie du Web plus classique. Il s'agit d'ailleurs d'une bonne façon de s'apercevoir que le marché du vocal n'est pas encore arrivé à maturité...

Les acteurs du vocal

Commençons par les différents acteurs de ce (pas si) petit monde. Ils sont grosso modo au nombre de quatre :
• Amazon, leader mondial avec sa gamme Alexa, déclinée en de nombreuses enceintes connectées. Il est clairement le plus avancé dans le domaine.
• Google, avec son assistant vocal et ses enceintes Google Home, est arrivé plus tard mais a déjà comblé une partie de son retard. Il est lui aussi, un mastodonte du milieu.
• Apple, qui a été l'un des premiers à démocratiser les interfaces vocales avec Siri, semble en revanche marquer le pas avec son enceinte Homepod. Il reste néanmoins un acteur incontournable.
• Microsoft, entreprise qui utilise sa technologie Cortana principalement sur Windows 10, et dont nous ne parlerons pas dans cet article, les usages vocaux restant ici trop limités à notre avis.


Fig. 1. Les 4 acteurs principaux de l'écosystème actuel du vocal.

Bien sûr, d'autres acteurs sont ou seront actifs avec d'autres technologies et les parts des marchés ne sont pas figées dans le marbre, loin de là. De l'innovation peut surgir (surgira) de nouveaux produits et de nouveaux noms et il y a fort à parier que les positions vont changer à l'avenir. Toujours est-il qu'Amazon, Google et Apple restent les 3 leaders incontestés aujourd'hui lorsqu'on parle d'intégration du vocal dans notre vie quotidienne.

Les supports du vocal

Deux terminaux semblent se partager le marché aujourd'hui : les smartphones et les enceintes connectés. La plupart des applications vocales actuelles passent par ces deux canaux.

Pourtant, d'autres possibilités existent et vont se développer, comme les commandes vocales dans l'habitacle d'une voiture. Si vous regardez les dernières publicités télévisées pour les véhicules, notamment de marque allemande, vous verrez que les interfaces vocales y ont la part belle. Il s'agit ici de technologies embarquées qui répondent à un véritable besoin : effectuer des commandes sans utiliser ses mains, déjà occupées sur le volant. Là encore, il y a fort à parier que les terminaux vont évoluer : la télécommande de la télévision passera soit par le smartphone, soit par un nouveau terminal commandé par la voix, etc. Et les enceintes connectées évoluent au fur et à mesure, incluant de plus en plus souvent un écran. Bref, là aussi, le marché murit petit à petit et n'est pas encore stabilisé. Ce sont les usages qui le modèleront.

Les types de requêtes vocales

On classifie souvent les requêtes web classiques sur un moteur de recherche en trois familles : informationnelles, transactionnelles et navigationnelles. Il en est de même pour la voix, même si cette classification peut être légèrement adaptée :

 Informationnelle : requête vocale de type encyclopédique : "Quelle est la hauteur de la tour Eiffel ?", "Pourquoi le drapeau suisse est-il carré ?", "Quel âge a la planète Terre ?", "Quelle est le poids d'un chien golden retriever adulte mâle ?", etc. Bref, le type d'information que l'on rechercherait en général sur Wikipedia.
• Transactionnelle : requête vocale à but commercial, d'achat en ligne : "Je voudrais commander des croquettes pour mon chat", "Acheter le dernier prix Goncourt", "Commander une pizza quatre fromages", etc.
• Navigationnelle : on ne cherche pas (ou moins) ici l'adresse d'un site web mais plutôt une requête géolocalisée et un commerce proche : "Trouve moi un restaurant japonais dans le coin", "Où se situe la prochaine station service ?", "Je veux réserver un hôtel à Paris la semaine prochaine", etc.
• Opérationnelle : il s'agit dans ce cas de donner un ordre simple, de type domotique ou de la vie quotidienne, à son assistant vocal : "Monte la température de 1 degré", "Lance un minuteur pour un œuf dur", "Descends les stores", etc.

On le voit, les requêtes peuvent être très différentes dans leur contenu et leur finalité. Et, en fonction des supports visés, les sources d'informations et les outils à utiliser seront bien différents.

Les sources d'informations du vocal

D'où viennent les réponses vocales lorsqu'on interroge un assistant ? Ces sources sont en fait multiples :

Les featured snippets

On le sait, sur les requêtes informationnelles, 80% des réponses vocales de Google viennent de la vocalisation du contenu d'un featured snippet lorsqu'il existe. Ce chiffre a été cité par plusieurs études et validé par nos propres tests. Donc oui, il est important d'explorer ce domaine si votre entreprise doit répondre à des requêtes de type encyclopédique.


Fig. 2. Sur l'assistant vocal Google, les featured snippets jouent un grand rôle pour les requêtes informationnelles.

Les bases de données internes

Google répondra parfois vocalement en reprenant des informations de sa base de données Wikidata (notamment les questions portant sur les entités nommées - noms propres). Amazon vous prendra en main si vous êtes un de ses clients et que vous lui posez une question transactionnelle récurrente ("commande des cartouches pour mon imprimante").  Amazon vous connait, il sait que vous avez déjà commandé ce produit, il ne vous demandera pas quel type de cartouche d'imprimante vous désirez. Il possède déjà ces informations stockées dans son système informatique.

Des sites partenaires

Amazon et Apple, par exemple, renverront souvent des informations issues de partenariats avec d'autres sites pour proposer des données qu'ils ne possèdent pas eux-mêmes : PagesJaunes, Yelp, La Fourchette, Trip Advisor, Yext, etc. Notamment sur des requêtes navigationnelles.

Les services de cartographie géolocalisée

Toujours pour les requêtes navigationnelles, Google utilisera Google Maps et son pendant Google my Business pour proposer des réponses proches géographiquement. De même Apple proposera des données issues de Apple Plan, son équivalent pour la marque à la pomme.

Les outils du vocal

En fonction de l'acteur, et donc de l'assistant vocal visé, il sera possible d'utiliser de nombreux outils à notre disposition, mais que nous devons apprendre à maîtriser pour mieux les utiliser.

Les Skills Alexa

Les skills Alexa sont des "apps vocales" permettant de créer une application lancée vocalement (exemple : "Alexa, lance Abondance") qui permettra ensuite d'instaurer une conversation avec le logiciel. Exemple : "Donne moi la définition de seo".

On peut créer ces apps en ligne (https://blueprints.amazon.com/) assez simplement avec quelques connaissances en programmation et un bon cahier des charges bien conçu. Il faudra bien sûr ensuite faire connaître l'app pour qu'elle soit connue et utilisée.

A ce sujet, n'hésitez pas à relire l'article : Focus sur les skills d'Amazon Alexa (numéro Réacteur de mars 2019).

Les Google Actions (ou Assistants)

Il s'agit du pendant chez Google des SKills Amazon. Les Google Actions (https://developers.google.com/voice-actions) se créent de façon assez similaire aux skills. Comme chez Amazon, il en existe déjà un bon nombre qui permettent de se faire une idée de ce qu'elles permettent (ceci dit, nombre d'entre elles sont très décevantes dans les faits ; Tout reste encore à inventer à ce niveau chez les deux leaders).

A ce sujet, n'hésitez pas à relire l'article : Comment créer une action (skill) pour Google Home ? (numéro Réacteur de février 2018).

Apple Home Kit

Apple propose également un kit de développement appelé Homekit (https://www.apple.com/fr/shop/accessories/all-accessories/homekit) pour les constructeurs d'équipements domotiques (interrupteurs, thermostat, ampoules, etc.) qui permet de faire ne sorte qu'ils soient commandables par la voix (requêtes opérationnelles). Nous n'avons pas trouvé d'équivalent chez Amazon et Google.


Fig. 3. Apple Home Kit, pour les constructeurs domotiques.

 

Comment faire pour toucher vocalement les internautes ?

Bien, l'écosystème est désormais dressé : des acteurs, des sources d'information, des outils, pour répondre à certains types de requêtes vocales. Que faire maintenant ?

Tout va dépendre du type de requête...

Requêtes informationnelles

Pour Google, la situation est claire : on visera les featured snippet (position zéro). Voire Wikipedia pour compléter et on répondra à une majorité de besoins.

Pour Amazon, qui est loin d'être le meilleur pour ce type de requête, on s'appuiera majoritairement sur Wikipedia. On pourra éventuellement tenter de mettre en place un partenariat avec la société américaine (pas simple) ou de créer une Skill si votre contenu s'y  adapte.

Et pour Apple, on ira également sur du Wikipedia par défaut, et sinon la SERP Google puisque c'est elle qui est affichée par Siri s'il n'a pas de réponse précise à fournir.

Bref, si la situation est claire pour l'assistant de Google, elle sera beaucoup plus complexe sur Alexa et Siri.


Fig. 4. Traitement des requêtes informationnelles en fonction des acteurs.

Requêtes transactionnelles

Les réponses transactionnelles "non régionalisées" sont quasiment absentes sur Google. La firme de Mountain View s'appuiera avant tout sur Google Maps et my Business pour proposer des résultats proches. Si Amazon est souvent décevant sur les requêtes informationnelles, il en est de même pour Google pour le transactionnel, surtout s'il n'y a pas de commerce correspondant proche de votre position géographique (ce qui peut arriver très souvent). Il faudra sinon développer une Google Action adéquate.

Amazon sera au contraire champion pour ce type de requête, puisque c'est son fonds de... commerce ! Les réponses se feront donc via le site de commerce en ligne d'Amazon (sa grosse artillerie) et si vous voulez être audible à ce niveau, il n'y aura pas d'autre choix que de vendre vos produits sur Amazon et d'être visible sur ce site. Ou passer par une skill.

Pour Apple, en revanche, à l'instar de Google, c'est le module Apple Plan qui sera utilisé avec des commerces proches ou sinon, comme pour l'informationnel, une SERP Google.


Fig. 5. Traitement des requêtes transactionnelles en fonction des acteurs.

Requêtes navigationnelles

Pour toutes les recherches géolocalisées, la situation est très éclatée avec de nombreuses possibilités :

Google : on l'a vu, c'est Google Maps et my Business qui seront majoritairement utilisés.

Amazon passe par des partenaires comme Pages Jaunes, Yelp ou Yext. Pour voir la source des réponses, utilisez l'app Alexa (en corrélation avec l'enceinte connectée), elle affichera cette information.

De même, Apple a conclu des accords avec de nombreux partenaires via Apple Plan : Yelp encore, TripAdvisor, Booking.com, La fourchette, etc. Là aussi, pour les voir, utilisez Siri sur un Mac desktop, la source des réponses est affichée.

Autant dire que la liste des possibilités est large, ce qui rend complexe et long le travail à effectuer...


Fig. 6. Traitement des requêtes navigationnelles en fonction des acteurs.

Requêtes opérationnelles

C'est le cas le plus simple :

Pour Google, la Google Action s'impose.
Pour Amazon, ce sera une skill.
Pour Apple, on prendra en compte le Homekit.

Ah, si tout pouvait être toujours aussi simple... 🙂


Fig. 7. Traitement des requêtes fonctionnelles en fonction des acteurs.

 

La bonne stratégie selon le type de site

On le voit, si vous désirez développer une bonne stratégie d'audibilité, vous devrez mettre en place un plan d'action rigoureux en fonction du type de requête visé et du type d'informations que vous proposez. Rien n'est simple pour l'instant.

Un site de presse et plus globalement de contenu s'orientera donc vers les featured snippets, Wikipedia, voire une skill Amazon ou une Google Action.

Un site de e-commerce s'orientera vers Google my Business, Apple Plan et complètera ses actions avec une Skill et une Action. Il devra également jeter un coup d'œil sur certains partenaires d'Amazon et d'Apple. Et bien sûr vendre sur Amazon si Alexa est visée.

Un site à zone de chalandise locale (hôtel, restaurant, etc.) aura beaucoup de travail avec un travail sur Google my Business, Apple Plan et évaluer sa visibilité sur les partenaires d'Amazon et d'Apple. Une Skill ou une Action seront éventuellement envisageables.

Un constructeur domotique créera une Action, une Skill et implantera le Apple Home Kit.

De la R&D nécessaire, mais encore de la R&D…

Restons lucides cependant : tout cela reste encore de la R&D, car si le vocal commence à faire son trou dans notre quotidien, il reste encore à l'état de "gadget" tant qu'on n'a pas trouvé les usages qui nous le rendent indispensable. Cela viendra, mais cela mettra du temps. Certainement plusieurs années.

Un temps qu'il est donc intéressant de mettre à contribution pour travailler en mode "laboratoire de recherche", comprendre comment tout cela fonctionne, pour être prêt le jour où la machine s'emballera. Nous avons certes encore un peu de temps devant nous. Mais le temps passe vite à l'échelle de l'Internet où la prospective se mesure en années, voire en trimestres. Autant s'y mettre donc dès maintenant !

Bon travail !

 

Olivier Andrieu
R
édacteur en chef de la lettre "Réacteur".