Kimi Linear: una novedosa arquitectura híbrida de atención lineal de código abierto en el Lado Oscuro de la Luna

Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial

37.5K 00

¿Qué es Kimi Linear?

Kimi Linear es una nueva arquitectura híbrida de atención lineal de código abierto de Dark Side of the Moon, cuyo núcleo es Kimi Delta Attention (KDA), que optimiza el modelo de atención tradicional mediante un mecanismo de activación más detallado, mejorando significativamente la eficiencia del hardware y el control de la memoria. La arquitectura adopta una estructura jerárquica híbrida 3:1, es decir, se inserta una capa de atención plena (MLA) después de cada tres capas de atención lineal KDA, lo que garantiza un procesamiento eficaz de la información local al tiempo que capta periódicamente las dependencias globales. Combinada con la técnica de Mezcla de Expertos (MoE), Kimi Linear activa sólo 3.000 millones de parámetros por propagación hacia delante a una escala de parámetros de 48.000 millones, lo que mejora drásticamente la eficiencia computacional.

Características de Kimi Linear

Diseño de arquitectura eficienteLa jerarquía híbrida 3:1 combina la atención lineal con la atención plena, equilibrando la eficacia y la captación de información global.
Mecanismos de atención innovadoresLa atención Delta Kimi (KDA) en el núcleo introduce una puerta diagonal a nivel de canal y una parametrización especial de la matriz para optimizar el control de la memoria y la eficiencia del hardware.
Tecnología híbrida expertaIncorpora la Mezcla de Expertos (MoE) para mejorar la eficiencia computacional activando sólo 3.000 millones de parámetros por propagación hacia delante con un tamaño de 48.000 millones de parámetros.
Mejoras significativas del rendimientoReducción del uso de la caché KV en 75% y mejora del rendimiento de descodificación de contexto largo hasta 6 veces respecto al modelo MLA completo para tareas de secuencia larga.
Código abierto y facilidad de usonúcleo KDA y vLLM La implementación ha sido de código abierto para proporcionar puntos de control del modelo de preentrenamiento y ajuste de instrucciones para la investigación y las aplicaciones.

Puntos fuertes de Kimi Linear

Ventajas arquitectónicasKimi Linear utiliza una innovadora jerarquía híbrida 3:1 que combina la atención lineal y la atención plena, equilibrando la eficiencia y la captura de información global para un procesamiento eficaz de datos secuenciales largos.
Ventajas de rendimientoKV: el uso de la caché KV se reduce en 75%, y el rendimiento de la descodificación de contexto largo aumenta hasta 6 veces el del modelo MLA completo, lo que mejora significativamente la eficiencia del procesamiento de tareas de secuencia larga.
Ventaja de la eficienciaLa tecnología más reciente es la Mezcla Mixta de Expertos (MoE), que reduce el coste computacional activando sólo 3.000 millones de parámetros por propagación hacia delante con un tamaño de 48.000 millones de parámetros.
Ventaja de la innovaciónKimi Delta Attention (KDA): Kimi Delta Attention (KDA) introduce una puerta diagonal a nivel de canal y una parametrización especial de la matriz para optimizar el control de la memoria y la eficiencia del hardware y mejorar el rendimiento del modelo.

¿Cuál es la página web oficial de Kimi Linear?

Repositorio Github:: https://github.com/MoonshotAI/Kimi-Linear
Biblioteca de modelos HuggingFace:: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
Documentos técnicos:: https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

Para quién es Kimi Linear

investigador en procesamiento del lenguaje natural (PLN): Kimi Linear proporciona nuevas direcciones de investigación y herramientas para ayudar a explorar arquitecturas de modelado del lenguaje y mecanismos de atención más eficientes.
Ingeniero de aprendizaje profundo: Su implementación de código abierto y los puntos de comprobación de modelos preentrenados facilitan a los ingenieros su rápida integración en los proyectos para mejorar el rendimiento y la eficacia de los modelos.
Desarrollador de procesamiento de datos a gran escalaPara situaciones en las que es necesario procesar textos largos o conjuntos de datos a gran escala, como la generación de textos, la traducción automática, etc.
Usuarios muy exigentes con la eficiencia del modeloKimi Linear: Las ventajas de Kimi Linear en el uso de la caché KV y el rendimiento de descodificación lo hacen adecuado para escenarios de aplicación que son sensibles a la eficiencia del funcionamiento del modelo y el uso de recursos.
Colaboradores de la Comunidad de Código Abierto: Su naturaleza de código abierto anima a los miembros de la comunidad a participar en mejoras y ampliaciones, y es adecuado para desarrolladores interesados en contribuir a proyectos de código abierto.