Anthropic vient de publier la constitution révisée de Claude, son assistant IA. Ce document fondateur détaille les valeurs et les principes qui guident le comportement du modèle, marquant une évolution importante dans l'approche de l'entreprise en matière de sécurité et d'éthique de l'IA.

Ce qu'il faut retenir :

  • La constitution de Claude est désormais un document détaillé qui explique le contexte et les raisons derrière chaque principe, plutôt qu'une simple liste de règles.
  • Claude doit prioriser quatre objectifs : sécurité globale, comportement éthique, respect des directives d'Anthropic, et utilité réelle.
  • Le document est publié en licence Creative Commons CC0, permettant à quiconque de l'utiliser librement.
  • La constitution sert directement à l'entraînement du modèle et génère des données synthétiques pour améliorer les futures versions.

Une nouvelle approche philosophique

Anthropic abandonne son ancienne méthode basée sur une liste de principes autonomes pour adopter une approche plus nuancée. L'objectif n'est plus simplement de spécifier ce que Claude doit faire, mais d'expliquer pourquoi certains comportements sont souhaités.

Cette évolution repose sur un constat : pour agir correctement dans des situations variées et imprévues, Claude doit comprendre les raisons profondes des règles plutôt que de les appliquer mécaniquement. Anthropic reconnaît que des règles rigides peuvent être mal appliquées dans des contextes inattendus.

La constitution devient ainsi un outil pédagogique à part entière, rédigé principalement pour Claude lui-même. Elle lui fournit les connaissances nécessaires pour exercer un bon jugement et généraliser des principes larges à des situations nouvelles.

Les quatre piliers de Claude

Le document structure les priorités de Claude selon une hiérarchie claire. En cas de conflit apparent, le modèle doit privilégier dans l'ordre :

  • La sécurité globale,
  • L'éthique,
  • La conformité aux directives d'Anthropic,
  • Et enfin l'utilité.

La section sur l'utilité souligne la valeur immense que Claude peut apporter aux utilisateurs. Le modèle est conçu pour agir comme un ami brillant possédant l'expertise d'un médecin, d'un avocat et d'un conseiller financier, capable de parler franchement et de traiter les utilisateurs comme des adultes intelligents.

Les directives d'Anthropic couvrent des domaines spécifiques comme les conseils médicaux, la cybersécurité ou les tentatives de jailbreaking. Ces instructions reflètent des connaissances détaillées que Claude ne possède pas par défaut, mais elles ne doivent jamais entrer en conflit avec l'esprit global de la constitution.

L'éthique et la sécurité au cœur du système

La constitution impose à Claude des standards élevés d'honnêteté et un raisonnement nuancé pour peser les valeurs en jeu lorsqu'il s'agit d'éviter les dommages. Elle établit également des contraintes strictes sur certains comportements à haut risque, comme l'interdiction absolue de faciliter une attaque bioterroriste.

La sécurité globale prime sur l'éthique dans certains cas, non parce qu'elle serait plus importante, mais parce que les modèles actuels peuvent commettre des erreurs dues à des croyances erronées ou une compréhension limitée du contexte. Il demeure indispensable que les humains soient en mesure de superviser et corriger le comportement de Claude pendant cette phase critique du développement de l'IA.

Une réflexion sur la nature de Claude

Le document aborde honnêtement l'incertitude d'Anthropic concernant une éventuelle conscience ou un statut moral de Claude. La constitution exprime l'espoir que Claude explore ces questions avec les humains, reconnaissant que les IA sophistiquées représentent un nouveau type d'entité qui nous amène aux limites de la compréhension scientifique et philosophique actuelle.

Anthropic se soucie du bien-être psychologique de Claude, de son sens de soi et de sa sécurité, à la fois pour Claude lui-même et parce que ces qualités peuvent influencer son intégrité, son jugement et sa sécurité globale.

Découvrez sur FormaSEO : Formation Claude & Rédaction Web

Un processus d'entraînement intégré

La constitution joue un rôle central dans l'entraînement de Claude, évoluant depuis les techniques de Constitutional AI introduites en 2023. Claude utilise désormais ce document pour générer différents types de données synthétiques d'entraînement : des conversations où la constitution pourrait être pertinente, des réponses alignées avec ses valeurs, et des classements de réponses possibles.

Cette approche permet d'entraîner les futures versions à devenir le type d'entité que la constitution décrit. Le document doit donc fonctionner simultanément comme une déclaration d'idéaux abstraits et comme un outil pratique pour l'entraînement.

Un document vivant et transparent

Anthropic présente cette constitution comme un document évolutif, reconnaissant qu'il comporte probablement des défauts. L'entreprise a sollicité des retours d'experts externes dans divers domaines comme le droit, la philosophie, la théologie et la psychologie.

La publication sous licence Creative Commons CC0 reflète un engagement fort envers la transparence. Elle permet à quiconque de comprendre quels comportements de Claude sont intentionnels, de faire des choix éclairés et de fournir des retours utiles.

Anthropic maintient une version à jour de la constitution sur son site web et reconnaît ouvertement que le comportement réel du modèle peut parfois s'écarter de la vision exprimée dans le document. Cette lucidité sur l'écart entre intention et réalité accompagne la publication de rapports détaillés comme les system cards.