Gemini 2.5 Computer Use est la toute dernière avancée de Google dans le domaine des agents IA capables d’interagir pleinement avec les interfaces web, ouvrant la voie à des assistants numériques vraiment autonomes. Le modèle exploite la compréhension visuelle et le raisonnement avancé pour naviguer, cliquer, remplir des champs et automatiser toutes sortes de processus en ligne, révolutionnant l’usage des navigateurs et la productivité des développeurs comme des utilisateurs.
Ce qu'il faut retenir :
- Gemini 2.5 Computer Use exécute des actions sur le web comme un humain (clics, saisies, soumissions…) sans passer par des APIs.
- Ce modèle, accessible publiquement en preview sur l’API Gemini, surpasse la concurrence en rapidité et précision sur des benchmarks web et mobiles.
- Google limite pour l’instant son périmètre au navigateur pour garantir sécurité et fiabilité, évitant le contrôle direct du système d’exploitation.
- Des usages concrets : tests UI, automatisation de formulaires, assistants autonomes et intégration dans des projets Google comme Project Mariner ou Firebase Testing Agent.
Qu’est-ce que Gemini 2.5 Computer Use ?
Gemini 2.5 Computer Use est un modèle d’intelligence artificielle conçu pour piloter un navigateur web de façon totalement autonome. Contrairement aux outils classiques qui s’appuient sur des APIs pour interagir avec les services en ligne, ce modèle agit « à la souris » et « au clavier », manipulant l’interface comme le ferait un internaute. Il s’appuie sur la vision par ordinateur et une compréhension poussée du langage naturel pour analyser capture d’écran, interface graphique et historique d’actions, puis pour décider des étapes à effectuer en boucle jusqu’à l’aboutissement de la tâche demandée.
Comment fonctionne ce nouvel agent Google ?
L’agent reçoit une requête utilisateur, une capture d’écran et l’historique récent des actions dans l’environnement web concerné. Ensuite, le modèle Gemini 2.5 analyse visuellement la situation et propose une action (écrire, cliquer, défiler…) sous forme de fonction à exécuter côté client. Chaque fois qu’une action est réalisée, une nouvelle capture d’écran accompagne la réponse et relance la boucle, jusqu’à la finalisation du process ou l’arrêt volontaire, que ce soit après succès, erreur ou décision de sécurité.

Google met à disposition cette capacité via l’API Gemini, intégrable dans Google AI Studio et Vertex AI, pour les développeurs souhaitant bâtir des agents automatisés. L’architecture privilégie la rapidité avec des latences réduites et une fiabilité supérieure aux alternatives existantes sur plusieurs benchmarks comme Online-Mind2Web et WebVoyager.
Cas d’usage et exemples concrets
Les démonstrations proposées par Google illustrent la puissance du modèle : collecte automatisée de données sur des sites web, organisation de tâches sur des boards visuels, commande d’actions sur des interfaces SaaS, ou encore tests d’interfaces utilisateur. Dès maintenant, l’outil s’intègre dans des produits internes comme Project Mariner ou le Firebase Testing Agent, qui accélèrent le développement logiciel et multiplient les capacités d’automatisation dans l’environnement Google.
Les premiers utilisateurs mettent en avant la rapidité, l’autonomie et la réduction des erreurs : Gemini 2.5 Computer Use réalise des workflows complexes où l’humain n’a plus besoin d’intervenir, même sur des interfaces en partie non structurées ou mal documentées.
Un périmètre encore limité mais taillé pour l’avenir
Contrairement à ChatGPT Agent (OpenAI) ou aux propositions d’Anthropic (Claude), Gemini 2.5 Computer Use se spécialise sur le volet web, avec 13 actions standard couvrant la majorité des besoins : ouvrir un navigateur, taper, cliquer, défiler, drag & drop, soumettre des formulaires. Ce périmètre choisi permet à Google d’assurer un haut niveau de sécurité, évitant le risque lié au contrôle système total, tout en s’appuyant sur l’environnement le plus universel du poste de travail moderne : le navigateur.

Sécurité : des garde-fous intégrés
Google a annoncé avoir fortement investi dans la sécurité de son agent : chaque action proposée par le modèle passe par un service de vérification indépendant avant exécution, réduisant les risques d’usage malveillant ou d’erreur critique. Les développeurs peuvent imposer des instructions systèmes pour forcer l’agent à demander une confirmation humaine sur certaines actions sensibles (paiement, suppression, contrôle système…). Des recommandations de bonnes pratiques permettent de limiter tout comportement à risque ou non désiré lors du déploiement.
Gemini 2.5 Computer Use représente ainsi une nouvelle étape dans la course à l’IA agentique, ouvrant le champ des possibles en matière d’automatisation web tout en posant les bases d’une approche responsable et sécurisée. Au-delà du chatbot « qui répond », c’est dorénavant l’IA qui agit, exécute, et interagit dans l’univers digital.