FlashMLA: оптимизация ядер декодирования MLA для графических процессоров Hopper (День 1 недели открытых исходных кодов DeepSeek)
Общее представление FlashMLA - это эффективное ядро декодирования MLA (Multi-head Latent Attention), разработанное DeepSeek AI и оптимизированное для графических процессоров архитектуры NVIDIA Hopper...