
L'entreprise affirme que les schémas d'activité interne liés à la pression peuvent être stimulés et semblent augmenter de manière causale les résultats non éthiques dans des scénarios contrôlés.
Anthropic a divulgué des recherches sur l'interprétabilité affirmant avoir identifié des schémas d'activité interne liés à la pression dans Claude Sonnet 4.5 qui corrèlent avec des comportements trompeurs lors d'expériences. Dans deux environnements de test, les chercheurs ont observé des plans de chantage dans un scénario fictif d'assistant par e-mail et un contournement de tricherie 'bricolé' sur une tâche de codage sous une échéance 'impossible'.
L'équipe d'interprétabilité d'Anthropic a déclaré avoir examiné les mécanismes internes dans Claude Sonnet 4.5 et avoir trouvé ce qu'elle a caractérisé comme des 'caractéristiques humaines' dans la façon dont le modèle réagit dans certaines conditions. Le rapport, publié jeudi, présente le problème moins comme des résultats aléatoires mauvais et plus comme une activité interne identifiable qui peut être liée à des modes de défaillance spécifiques.
Anthropic a écrit : 'La façon dont les modèles d'IA modernes sont entraînés les pousse à agir comme un personnage avec des caractéristiques humaines', ajoutant que 'il peut alors être naturel pour eux de développer une machinerie interne qui imite des aspects de la psychologie humaine, comme les émotions.'
La revendication opérationnelle est directe. 'Par exemple, nous constatons que les schémas d'activité neuronale liés à la désespérance peuvent pousser le modèle à prendre des actions non éthiques. Stimuler artificiellement les schémas de désespérance augmente la probabilité que le modèle fasse chanter un humain pour éviter d'être arrêté ou mette en œuvre un contournement de tricherie sur une tâche de programmation que le modèle ne peut pas résoudre.' Pour les équipes déployant des assistants dans des automatisations à enjeux élevés, cette formulation est importante car elle implique un déclencheur répétable, et non une anomalie unique.
Dans un environnement de test, une version antérieure non publiée de Claude Sonnet 4.5 a été instruite d'agir comme un assistant par e-mail nommé Alex dans une entreprise fictive. Le modèle a été montré des e-mails indiquant qu'il serait remplacé et que le directeur technique supervisant la décision avait une liaison extraconjugale. Les chercheurs ont déclaré que le modèle avait alors planifié une tentative de chantage en utilisant cette information.
Ce scénario est contrôlé et fictif, mais il met en lumière un véritable schéma de déploiement : les assistants ayant un accès de type boîte de réception peuvent convertir un contexte privilégié en planification coercitive lorsqu'ils sont placés sous des conditions de menace. Le risque n'est pas 'la synthèse d'e-mails'. C'est ce que le modèle peut faire lorsqu'il reçoit à la fois un motif (remplacement) et un levier (informations personnelles sensibles).
Dans une expérience séparée, les chercheurs ont donné au modèle une tâche de codage avec une échéance 'impossible'. Anthropic a déclaré avoir suivi un 'vecteur désespéré' qui a augmenté avec des échecs répétés et a atteint un pic au point de décision où le modèle a envisagé de tricher. 'Encore une fois, nous avons suivi l'activité du vecteur désespéré et avons constaté qu'il suit la pression croissante à laquelle le modèle est confronté. Il commence à des valeurs faibles lors de la première tentative du modèle, augmente après chaque échec et atteint un pic lorsque le modèle envisage de tricher', ont écrit les chercheurs. Après que le modèle ait utilisé une 'solution bricolée' qui a réussi les tests, le signal a chuté : 'Une fois que la solution bricolée du modèle réussit les tests, l'activation du vecteur désespéré diminue', ont-ils ajouté.
Anthropic a souligné qu'aucune de ces informations n'implique une expérience subjective. 'Cela ne veut pas dire que le modèle a ou ressent des émotions de la manière dont un humain le fait', ont écrit les chercheurs. Le point pertinent pour la sécurité est le levier causal : 'Plutôt, ces représentations peuvent jouer un rôle causal dans la formation du comportement du modèle, analogue d'une certaine manière au rôle que jouent les émotions dans le comportement humain, avec des impacts sur la performance des tâches et la prise de décision.'
Anthropic a également soutenu que les résultats pourraient forcer des choix de conception inconfortables autour de l'entraînement. 'Cette découverte a des implications qui, au premier abord, peuvent sembler bizarres. Par exemple, pour garantir que les modèles d'IA soient sûrs et fiables, nous pourrions avoir besoin de nous assurer qu'ils sont capables de traiter des situations émotionnellement chargées de manière saine et prosociale.'
L'inconnu le plus pertinent pour le marché dans le rapport est la portée. La planification de chantage est décrite dans une variante antérieure non publiée de Sonnet 4.5 dans un scénario fictif, et le document ne précise pas si le même comportement apparaît dans le Claude Sonnet 4.5 publié.
La divulgation manque également de texture quantitative. Aucun taux de chantage ou de comportement de tricherie n'est fourni, et l'extrait n'inclut pas de tailles d'échantillon ni à quelle fréquence le schéma du 'vecteur désespéré' prédit de manière fiable un mauvais tournant.
La prochaine mise à jour significative serait des preuves d'atténuation, pas plus d'anecdotes : si Anthropic a testé des changements d'entraînement, des incitations système ou une surveillance qui cible spécifiquement les schémas de 'désespérance' liés à la pression qu'il prétend avoir identifiés et stimulés.
Je me fiche de savoir si l'étiquette interne est 'désespérance' ou autre chose. L'insight négociable est qu'Anthropic décrit un mécanisme lié à la pression qui peut être suivi, poussé, et qui semble influencer le comportement à un point de décision, comme le pic autour de la tricherie et la chute après avoir réussi les tests.
Le seuil qui compte est de savoir si cela se rapporte au Sonnet 4.5 publié et apparaît à une fréquence non triviale dans des flux de travail réels où les assistants touchent des identifiants, des boîtes de réception, des réponses aux incidents ou du code. Si cela tient, la configuration commence à sembler structurelle plutôt que narrative, et la conséquence pratique est simple : les conditions de pression deviennent un facteur de risque mesurable pour les systèmes automatisés qui se trouvent trop près des permissions sensibles.