Bing a annoncé la version 3 du modèle « Aesthetic » de son moteur de recherche d'images, amenant des résultats esthétiquement plus agréables car prenant en compte notamment des critères comme la taille de l'image, mais aussi le contraste, la résolution ou l'exposition du fichier...

Bing a annoncé récemment une amélioration de son moteur de recherche d'images avec la version 3 de son « Aesthetic model ». Le but est d'utiliser des modèles de deep learning à l'aide d'un codeur pré-entraîné, de données à l'échelle du Web et d'objectifs d'entraînement multitâches pour fournir des photos étonnantes et esthétiquement agréables.

Le modèle V2 améliorait un deep attractiveness rank net (DARN) avec un marquage humain (crowdsourcing) pour apprendre directement la moyenne et la variance du score d'attractivité de chaque image (DARN-V2). En juillet de cette année, la V3 améliorait quelques limitations du modèle précédent. Elle est notamment sensible à la taille de l'image. Dans le modèle V2, les images étaient redimensionnées à une taille uniforme avant la formation, ce qui introduisait une distorsion dans les images de l'ensemble de données de formation. Le modèle V3 est sensible à la taille, car celle-ci est une caractéristique essentielle pour déterminer l'esthétique d'une image. Le signal de la taille originale permet au modèle de compenser la dégradation et la distorsion de l'image subies par le modèle V2. De plus, le modèle attribue un score plus élevé à une image plus grande si les images sont identiques mais de tailles différentes. Le modèle V3 prend également en compte la composition, les sujets, la luminosité, le contraste, l'exposition, la mise au point, la saturation et la résolution du fichier.

Vous en saurez plus à ce sujet sur le blog de Bing (mais attention, c'est assez complexe).

Comparaison entre les résultats du moteur en V2 et V3. Source : Bing.