recherche

Après le mini-séisme déclenché par une communication certainement mal maitrisée pour le lancement de l'outil de recherche Qwant, voici une longue interview de ses fondateurs-concepteurs qui ont bien voulu répondre à nos questions...

Le moteur de recherche Qwant a été lancé la semaine dernière et sa communication a beaucoup fait parler, notamment sur le site Abondance. Nous avions essayé, plusieurs jours avant d'écrire notre article, de contacter les fondateurs et concepteurs de l'outil, malheureusement en vain. Ceux-ci nous ont finalement envoyé un message suite à la parution de notre point de vue, et ont accepté de répondre à nos questions pour aller plus loin et nous donner leur vision concernant ce projet et son concept, les technologies utilisées, etc.

Voici donc les réponses de Jean-Manuel Rozan, Eric Léandri (Qwant) et Patrick Constant (Pertimm) aux différentes questions que nous leur avons posées...

Bonjour et merci de bien vouloir répondre à nos questions. Pouvez-vous nous présenter le projet et la société Qwant de façon globale ?

Qwant a été créé par ses trois fondateurs, Jean-Manuel Rozan via sa holding, Eric Léandri via la sienne, et Pertimm. Eric Léandri et Pertimm ont apporté à Qwant des années de développement de solutions très diverses dans le domaine de la recherche sémantique entre autres, et J-M Rozan son expérience d'entrepreneur et de financier. A eux sont venus se joindre des actionnaires minoritaires de grande qualité ; notamment Alberto Chalon, opérateur du site de ventes privées italien « Piustyle », qui a contribué son expérience de la vente en ligne et de l'utilisation des données sociales à cet effet. La société est dirigée conjointement par eux quatre.

Sur quelles technologies sont basées votre outil de recherche et quelle a été sa genèse ?

L'outil Qwant est basé sur la technologie de Pertimm, qui a développé depuis 15 ans sa propre technologie de moteur de recherche, raffinée au cours des années en particulier en introduisant beaucoup de traitements sémantiques au coeur du moteur.

Cette technologie est utilisée quotidiennement depuis 2006 par Pagesjaunes.fr où elle répond
à plusieurs dizaines de millions de requêtes par jour et sur Meetic, et Auchan.fr avec aussi plusieurs millions de requêtes par jours. Cette technologie est basée sur celle des moteurs de recherche sémantique et le triptyque "crawling -> indexation -> recherche". Nous avons pu faire par le passé des expériences « grandeur nature » sur la France et notre outil donnait des résultats très proches de ceux de Google mais Pertimm a renoncé au projet de mettre en ligne un moteur (c'était en 2008).La raison en était que les résultats que obtenus étaient justement trop proches de ceux de Google, et donc très loin d'être différentiateurs par rapport à Google. A l'époque nous suivions avec beaucoup d'attention Exalead, mais nous pensions que, malgré le travail exceptionnel effectué par les équipes d'Exalead ce ne serait pas suffisant. De notre coté, nous avions expérimenté des moteurs plus avancés coté sémantique. Cependant, la sémantique était peu visible, et même si elle améliorait la pertinence des résultats , il nous manquait tout un pan visuel (une ergonomie) et tout un pan web 2.0. Depuis ce moment nous étions activement en recherche de partenaires qui nous aideraient à synthétiser une offre qui aurait une chance. Il y a trois ans, les responsables de Pertimm ont rencontré Eric Léandri, qui leur a exposé sa vision du web, et Pertimm a pensé qu'il y avait là une possibilité ténue de relancer l'aventure, pour tenter de gagner au moins quelques pourcents des parts de marché de la publicité sur Internet.

J-M Rozan a ensuite renforcé l'équipe et financé initialement cette aventure.

Mais, si Qwant se repose principalement sur les technologies de Pertimm, comment se fait-il que les résultats Web que nous avons testés ressemblent à 99% à ceux de Yahoo!, dont la technologie de search est fournie par Bing ? Dans ce cas, pourquoi les noms de Bing et de Yahoo! n'apparaissent-il jamais dans votre communication ?

Nous prenons les sources de plusieurs APIs existantes, de plusieurs flux existants, et les mixons après calculs et tri sémantique comme nous l'expliquerons par la suite. Actuellement le mix est peut-être mal mélangé avec une utilisation de Bing importante (au moins sur les deux premières colonnes) mais la troisième colonne utilise d'autres APIs, nos propres moteurs de tris sémantiques, nos propres outils de choix de pertinence, mixés à de nombreuses sources de données externes (Twitter, Facebook, Google+, etc.) et la quatrième encore d'autres. Nous ne cachons pas du tout l'utilisation de ces APIs (car les appels sont visibles au premier curieux venu, même pas nécessairement spécialiste du web, exemple : les images Bing ), bien au contraire, nous adaptons simplement les possibilités du web moderne actuel dans le cadre d'un moteur rassemblant dans une seule interface toutes ces possibilités existantes mais encore peu connues du web moderne.

Vous dites que "vous ne cachez pas du tout l'utilisation de ces APIs" mais où se trouve l'indication que Qwant utilise Bing, par exemple, ou d'autres sources dans les pages de résultats ? Car c'est en grande partie à ce niveau que se trouve la genèse des polémiques actuellement en cours autour de Qwant, selon nous...

En quoi est ce une obligation ? Cela ne l'est pas dans les demandes du principal intéressé et donc en aucun cas cela n'a d'intérêt pour le grand public. Cependant et comme nous l'avons déjà dit nous voulons proposer deux choses : la première de vrais résultats pour le grand public, la seconde : la mise en place d'un index pertinent qui nous permettra très rapidement de proposer nos propres résultats couplés à nos propres choix sémantiques.

Nous respectons parfaitement les conditions générales d'utilisation de l'ensemble des fournisseurs de data que nous utilisons et en particulier de celui-ci.

Nous couplons cela à la mise en place de notre ranking interne et nous vous proposerons donc bientôt nos crawlers pour le live français puis européen dans le mois qui vient (nous avons actuellement du retard accumulé du à quelques jours mouvementés).

Quel est le concept principal de Qwant ?

De notre point de vue, le Web 3.0 correspond en particulier au fait que le web n'est plus uniquement un ensemble de pages web que l'on va "ranker" (Google), mais un ensemble de données plus ou moins structurées, plus ou moins accessibles, soit en tant que données structurées (les annuaires ou les sites de e-commerces, par exemple) mais aussi - et c'est plus nouveau - via des APIs (Facebook, tweeter, et des centaines d'autres sites).

Vouloir se dire que l'on va télécharger des pages pour ensuite les ranker c'est revenir aux tout débuts de Google, alors qu'il existe maintenant des centaines (et bientôt des milliers) de sites qui apportent des informations toutes utilisables légalement car elles offrent ces APIs volontairement.

Le web est infiniment plus structuré qu'il ne l'était du temps des débuts de Google, il faut en tenir compte pour proposer des expériences de navigation nouvelles utilisant tous les nouveaux outils
existants s'offrant à nous. Tous ces outils ont des conditions légales d'utilisation et cela prend du temps de les utiliser en respectant toutes ces conditions, ce qui fait que cela prend du temps de travailler sur beaucoup d'entre elles, ce que nous faisons.

L'une des originalités de Qwant est simplement liée à l'originalité de ce nouveau web qui est le web 3.0 et qui a un visage totalement différent de son visage d'il y a 10 ans. A nouveau web, nouveau moteur.

Maintenant, Qwant n'est pas non plus une boite à lettre utilisant juste un ensemble d'API. Nous stockons aussi de l'information, et nous en stockons beaucoup et nous faisons beaucoup de calculs dessus. N'importe quel moteur de recherche qui se respecte en fait autant. Sur ce point, indiquons qu'il est aussi nécessaire de savoir ce que l'on peut stocker ou pas car nous respectons scrupuleusement la législation européenne et les règles de la Cnil sur les données des personnes privées en particulier et les conditions de stocker ou non les informations existant sur Internet. C'est également ce travail essentiel qui nous a pris du temps de développement.

Ensuite, comme n'importe quel moteur de recherche, nous utilisons les résultats de ces calculs pour renvoyer des résultats davantage digérés, davantage structurés (cette méthode étant exactement celle de Google ou Bing, ni plus ni moins: stocker des fichiers, les "cruncher" et les renvoyer triés en fonction des requêtes, mais aussi celles de Twitter, Facebook, Google+ et en fait tous les sites offrant peu ou prou des APIs).

Nous avons donc à la fois de très grandes de bases de données (sur base de données NoSql) stockant les informations publiques et permettant de faire des calculs de pertinence sémantiques avancés, et bien évidemment des index de recherche sur technologies Pertimm permettant de calculer des pertinences sémantiques à la volée sur tout ou partie des données.

Il y aura donc dans Qwant, par nécessité même, toujours une partie live et une partie moins live et plus "crunchée" avec une vision plus traditionnelle d'un moteur de recherche.

Bien évidemment, l'utilisation live des APIs est plus visible, que la recherche sur des données téléchargées. Pourtant nous faisons bien les deux choses à 50%/50% actuellement. C'est justement cette approche mixte qui fait l'originalité de Qwant. Nous disons même que cette originalité n'est que le reflet de l'originalité et de la diversité de plus en plus forte d'Internet lui-même (les fameux Web 3.0, Big Data, et « Internet of Things »); c'est cette évolution qui rend Qwant à la fois possible et nécessaire ; notre méthode est le reflet d'un état des lieux en grande mouvance, et d'autres avanceront exactement dans la direction que nous prenons.

Enfin, qu' aurions nous aurions à gagner à faire un simple mash-up ou un simple méta-moteur (qui ont eu leur heure de gloire il y a maintenant plusieurs années, ce qui est respectable) ??

Si nous comprenons bien, Qwant a vocation à mixer à moyen terme les données, par exemple pour la recherche Web, venant d'un moteur comme Bing avec celles crawlées par les robots de Pertimm. Quelle est la taille de l'index constitué par les technologies de Pertimm et utilisé par Qwant à l'heure actuelle, en nombre de pages ?

Oui absolument, la taille de l'index est déjà de plusieurs tera octets et il grossit vite, nous avons des machines qui ont jusqu'à 160 Go de mémoire RAM avec chacune beaucoup de disques SSD. C'est ce qui nous permet de répondre très rapidement à beaucoup d'information.

Pour ce qui est du nombre de pages, il faut savoir que – du fait de la structure éminemment riche et variée du web 3.0 (cela peut aller d'un twit de 140 caractères à données binaires de plusieurs GO) - la notion de page web est assez obsolète et aura de moins en moins de sens car les données se structurent elle-aussi. Donc nous parlons davantage d'items d'information ou d'objets. Tout cela vous rappellera bien sûr le Big Data et l' »Internet of Things », notions que nous embrassons plus que totalement. Ceci étant dit, nous avons actuellement plusieurs milliards de tels objets en index et ce n'est que le commencement.

Les robots sont gérés développés et améliorés dans Qwant et Pertimm.

Où en est le projet à l'heure actuelle ?

C'est une version bêta qui est actuellement en ligne et l'intelligence sera injectée au fur et à mesure et notamment au travers de nos technologies couplées à celles initialement développés par Pertimm avec des extractions du social, blogs sites et autres en temps réel, afin de nous permettre d'affiner, transformer, et reclasser les réponses web live et Wikipedia en fonction du social et amener notre indexation .... Par exemple, une recherche sur le mot clé "google" dans Qwant et une sous-recherche sur "panda" ou "penguin", le live, ou le social vous proposeront des résultats nouveaux... Nous développons également la partie recherche dans les images et les vidéos qui vous permettront d'affiner vos recherches en quelques clics...

Cette approche vous garantit de trouver très rapidement ce que vous recherchez en utilisant le principe de sous-recherche. Essayez sur "the voice" ou un match de foot ou plus simplement sur le nom de votre ville ou village et voyez ce qu'il s'y dit. Changez de pays et voyez le point de vue des autres.

Nous ne sommes pas encore prêts sur tout et comme le décrit notre post (http://blog.qwant.com/qwant), nous allons nous améliorer. L'engouement pour la recherche dans Qwant et les réponses et les mails des utilisateurs du site sont très positives. Nous sommes par ailleurs d'accord sur le besoin de confiance et nous tenons à préciser que nous sommes en France soumis à la cnil et nous suivrons les obligations européennes.

Si les technologies propres d'indexation de Pertimm/Qwant n'étaient pas assez avancées en termes de volume (index), n'aurait-il pas été plus judicieux d'attendre un peu plus pour que les résultats renvoyés soient plus différentiants de ceux renvoyés par les technologies partenaires utilisées (Yahoo! par exemple) ?

Il fallait bien ouvrir le site un jour ou l'autre, nous avons démarré depuis deux ans, et cette question était dans notre tête depuis près d'un an. D'autre part, comme Qwant s'enrichit aussi des données liées aux recherches effectuées sur son propre site, il était aussi intéressant de se confronter à de vrais utilisateurs en grandeur nature. Enfin, et même si nous nous étions préparer techniquement pour « tenir le choc » nous avons été très surpris de l'ampleur que cela a pris. Cependant nous faisons de la sémantique contextuelle et pour cela nous devons dans un premier temps parfaitement étudier l'ensemble des contextes que sont les différents types de données de ce web 3.0.

Car il serait dommageable qu'un simple post mensonger issus d'un blog inconnu ne déclenche une vague de racisme, ou une panique voire bien pire. Heureusement dans notre cas cela nous a surtout obligé à nous entretenir avec la communauté des gens du SEO que nous avions très mal gérée et en même temps éclairer les journalistes avec qui nous étions trop peu explicite.

Aujourd'hui les résultats des moteurs de recherche sont importants et souvent pris pour argent comptant. Nous devons donc tester et comparer les resultats issus de notre ranking avec ceux des autres et vérifier que nos extractions temps réels de blogs, posts, sites proposés dans le social amène une vraie intelligence et une vraie pertinence quand elle arrive dans le live.

Il en va de même avec moins de risque pour le web afin d'amener une autre vision du ranking plus en adéquation avec les changements, les envies des vagues d'utilisateurs.

Ceux-ci vont et viennent sur le web en général et les choses bougent plus vite aujourd'hui que ne le laisse supposer le web actuel.

Testez dans Qwant "Barcelone" pendant le salon du mobile et affinez par vos préférences dans les catégories ou plus simplement essayez nos tendances du jour et changez de pays (ce qui a mon avis n'est pas encore disponible chez ceux dont la publicité court sur un blog depuis quelques jours et qui sont bien de l'autre côté de l'atlantique).

Comment se fait-il que les résultats Sociaux renvoyés par Qwant sur les mots clés en français sont très proches de ceux renvoyés par le la technologie Kurrently.com ? Utilisez-vous cette technologie ?

En ce qui concerne ce site américain, nous n'avons rien à voir avec leur technologie ni de près ni de loin. Comme nous l'avons dit précédemment : changez de pays dans Qwant et nous pensons que cela suffira à vous montrer que tout est de chez nous. Peut être leur technologie ou leur plaquette commerciale sera exposé dans un prochain blog anonyme ? Nous utilisons nos propres algorithmes et nous utilisons nos propres moyens pour crawler, indexer, et restituer les réponses du social. Il en va de même pour les catégories "people" ou pour les "hottrends" (tendances du jour) qui permettent d'avoir de vraies tendances de recherche et pas seulement celles de twitter.

Le Figaro parle de "quelques millions d'euros investis dans l'outil". Comment sont-ils répartis et à quoi correspondent-ils ?

La répartition est celle d'une entreprise normale : salaire des personnes travaillant sur Qwant, coût de l'infrastructure (plusieurs centaines de milliers d'euros), consultation juridique pour être conforme à la législation, consultation marketing, juridique, gestion administrative et financière.

Après ce lancement, avez-vous l'impression d'avoir fait des erreurs de communication ? Regrettez-vous certaines choses ?

Notre intention était de faire une publication minima destinée aux utilisateurs et grand public. En réalité la publication sur le Blog du Figaro a été reprise par les professionnels très rapidement ce que nous n'attendions pas et qui en même temps nous a agréablement surpris !

Cependant notre faible connaissance des médias et notre communication directe peu explicite a pu engendrer ces réactions.

Aujourd'hui nous avons en moyenne 150 000 visiteurs par jour. Donc, nous pensons que, pour notre intention initiale, cela a été réussi. Par contre, il est évident que – de facto – nous n'avions pas prévu de communication spécifique pour les professionnels du métier, et de ce coté là, nous reconnaissons humblement nos erreurs. D'autre part, nous avons tardé à répondre à tout le monde, pour ces mêmes raisons, et aussi simplement parce que nous sommes une petite équipe et que cela prend du temps de répondre à un maximum de personnes (et le dimanche en France nos équipes très réactives étaient en repos 🙂 ).

Quel est le modèle économique de Qwant ?

La monétisation de l'audience est relativement classique : sur l'audience et faire passer des messages d'opportunité d'achat au gens qui regardent l'écran. Nous travaillons aussi sur des offres B2B. Pour l'instant, il nous est difficile d'être trop précis sans mettre en danger ce point essentiel de notre travail. Nous pouvons cependant dire que notre modèle passe beaucoup plus par celui développé par Yandex (partage équitable de revenus avec tous les acteurs professionnels) que celui de Google (payez-moi des adwords et je montrerais à quel point vous êtes beaux). Et nous éviterons dans les catégories principales de faire passer le payant avant l'important.

Pourquoi les conditions d'utilisation ne permettent-elles pas de faire un lien vers Qwant sans votre accord ? N'est-ce pas étrange ?

Sur ce point, nous avons eu une petite réunion avec nos avocats dès lundi dernier 🙂 C'est maintenant corrigé et expliqué sur notre blog (http://blog.qwant.com/avez-vous-le-droit-de-faire-un-lien-vers-qwant).

Le mot de la fin ? 🙂

Nous vivons cela comme une aventure passionnante qui est à la fois ambitieuse car c'est une autre façon d'appréhender Internet et modeste car nous n'avons aucune idée du niveau d'adhésion que nous allons obtenir.

Nous avons lancé le site en bêta en France pour que les gens nous aident et, autant que nous le pourrons et autant qu'ils le voudront, pour les aider : l'Internet est à tout le monde et nous souhaitons faire que cela reste aussi vrai que possible, à la fois pour les utilisateurs et le grand public mais bien évidemment aussi pour tous les professionnels.

Merci pour vos réponses !

qwant
Source de l'image :Abondance / Qwant