Une étude de la société Perficient Digital a récemment comparé les technologies de reconnaissance d'images d'IBM, Google, Microsoft et Amazon, par rapport notamment à un travail humain et manuel. C'est le système Google Vision qui semble tirer le mieux son épingle du jeu à ce niveau...

La société Perficient Digital a publié dernièrement une étude sur la reconnaissance d'images en comparant les résultats de Google (Vision), Microsoft (Azure Computer Vision), Amazon (AWS Rekognition) et IBM (Watson) en la matière.

L'étude a comparé la reconnaissance par ces 4 technologies de 2 000 images classées en quatre catégories : Graphiques, Paysages , Personnes et Produits. Pour chaque image, un certain nombre de "tags" ont été renvoyés par les technologies utilsées (Amazon étant celui qui a renvoyé le plus de tags : 12,43 en moyenne par image, alors que Google, le moins bien classé quantitativement, n'en fournissait que 8,31), le tout comparé aux tags créé par des êtres humains de façon manuelle, pour mesurer la pertinence du travail effectué de façon automatique.

D'une façon générale, lorsque le "tagage" humain obtient 87,7% de pertinence, c'est Google Vision qui s'en sort le mieux, selon cette étude, avec 81,7%, suivi de Amazon AWS Rekognition (77,7%), Microsoft Azure Computer Vision (75,8%) et IBM Watson (55,6%). Comme quoi, les aspects quantitatifs et qualitatifs sont très éloignés…

Scores globaux de pertinence des tags renvoyés.
Source de l'image : Perficient Digital

L'étude compare également par exemple la qualité des 5 meilleurs tags identifiés par les 4 technologies de reconnaissance d'images testées par rapport aux résultats trouvés par les êtes humains. Là encore, c'est Google qui sort premier :

Comparaison des tags renvoyés de façon manuelle et automatique.
Source de l'image : Perficient Digital

L'étude, très complète, est présentée en détails ici. N"hésitez pas à vous y référer si le sujet vous intéresse…