LightLLM: un marco ligero y eficiente para razonar y servir grandes modelos lingüísticos

Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial

41.1K 00

Introducción general

LightLLM es un marco de inferencia y servicios basado en Python y conocido por su diseño ligero, facilidad de escalado y rendimiento eficiente. El marco aprovecha diversas implementaciones de código abierto muy conocidas, como FasterTransformer, TGI, vLLM y FlashAttention, entre otras. lightLLM mejora drásticamente la utilización de la GPU y la velocidad de inferencia mediante técnicas como la colaboración asíncrona, el procesamiento dinámico por lotes y el paralelismo tensorial para una amplia gama de modelos y escenarios de aplicación.

Lista de funciones

Colaboración asíncrona: admite operaciones asíncronas de división de palabras, inferencia de modelos y eliminación de divisiones para mejorar la utilización de la GPU.
Atención sin relleno: admite operaciones de atención sin relleno para varios modelos y gestiona solicitudes con grandes diferencias de longitud.
Procesamiento dinámico por lotes: admite la programación dinámica de solicitudes por lotes.
FlashAttention: Aumente la velocidad y reduzca el consumo de memoria de la GPU con FlashAttention.
Paralelismo tensorial: acelera la inferencia en varias GPU utilizando el paralelismo tensorial.
Ficha Atención: Implementado mecanismo de gestión de memoria basado en tokens para caché KV con cero desperdicio de memoria.
Enrutadores de alto rendimiento: trabajar con Token Attention para optimizar el rendimiento del sistema.
Caché Int8KV: Aumenta la capacidad de tokens, casi duplicándola.
Compatible con varios modelos: BLOOM, LLaMA, StarCoder, ChatGLM2, etc.

Utilizar la ayuda

Proceso de instalación

Instala LightLLM usando Docker:

   docker pull modeltc/lightllm
docker run -it --rm modeltc/lightllm

Instale la dependencia:

   pip install -r requirements.txt

Utilización

Inicie el servicio LightLLM:

   python -m lightllm.server

Modelo de consulta (ejemplo de consola):

   python -m lightllm.client --model llama --text "你好，世界！"

Modelo de consulta (ejemplo Python):

   from lightllm import Client
client = Client(model="llama")
response = client.query("你好，世界！")
print(response)

Funciones principales

colaboración asíncronaLightLLM mejora significativamente la utilización de la GPU ejecutando de forma asíncrona las operaciones de segmentación, inferencia de modelos y de-segmentación. Los usuarios solo tienen que iniciar el servicio y el sistema se encarga de estas operaciones automáticamente.
capacidad de atención insatisfechaLightLLM: Cuando se procesan solicitudes con grandes diferencias de longitud, LightLLM admite operaciones de atención sin relleno para garantizar un procesamiento eficaz. El usuario no necesita ninguna configuración adicional y el sistema se optimiza automáticamente.
Procesamiento dinámico por lotesLightLLM soporta la programación dinámica por lotes, los usuarios pueden establecer los parámetros de los lotes a través del archivo de configuración, el sistema ajustará dinámicamente la política de lotes de acuerdo con la solicitud.
FlashAtenciónFunción FlashAttention : Al integrar la tecnología FlashAttention, LightLLM mejora la velocidad de inferencia y reduce la huella de memoria de la GPU. Los usuarios pueden activar esta función en el archivo de configuración.
paralelismo tensorialLightLLM admite el paralelismo tensorial en múltiples GPUs. Los usuarios pueden establecer el número de GPUs y los parámetros de paralelismo a través de un archivo de configuración, y el sistema asignará las tareas automáticamente.
Atención simbólicaLightLLM implementa un mecanismo de gestión de memoria basado en tokens para la caché KV, asegurando un desperdicio cero de memoria. No hay necesidad de configuración adicional por parte del usuario, el sistema gestiona la memoria automáticamente.
Router de alto rendimientoLos routers de alto rendimiento de LightLLM trabajan con Token Attention para optimizar el rendimiento del sistema. Los usuarios pueden establecer los parámetros de enrutamiento en el archivo de configuración y el sistema optimizará automáticamente la política de enrutamiento.
Caché Int8KVLightLLM soporta la caché Int8KV para aumentar la capacidad de tokens, casi el doble. Los usuarios pueden activar esta función en el archivo de configuración, y el sistema ajustará automáticamente la estrategia de almacenamiento en caché.

Modelos compatibles

LightLLM es compatible con diversos modelos, entre los que se incluyen:

BLOOM
LLaMA
StarCoder
ChatGLM2
InternLM
Qwen-VL
Llava
Stablelm
MiniCPM
Phi-3
CohereForAI
DeepSeek-V2

Los usuarios pueden seleccionar el modelo adecuado según sus necesidades y configurarlo en consecuencia en el archivo de configuración.

Últimos recursos sobre IA # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

360Wisdom: plataforma comercial de generación, edición y obtención de imágenes con derechos de autor (no recomendada)

hace 1 año

035.3K

Dynamiq: Marco de orquestación de cuerpos inteligentes con soporte de agentes RAG y LLM para simplificar el desarrollo de aplicaciones de IA

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Marco de desarrollo del cuerpo inteligente

hace 1 año

038.5K

Mini-Cover: un creador de portadas en línea diseñado para generar portadas personalizadas para blogs, vídeos cortos, redes sociales y mucho más.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Marketing

hace 1 año

039.5K

AIGCPanel: clon de código abierto del sistema de integración digital man, despliegue en un clic del cliente gratuito digital man.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Digital Man

hace 1 año

048K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

LightLLM: un marco ligero y eficiente para razonar y servir grandes modelos lingüísticos

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Utilización

Funciones principales

Modelos compatibles

Artab: muestra pinturas famosas de todo el mundo en una nueva pestaña abierta en el navegador, complemento de Chrome

CrewAI: un marco de inteligencia colaborativa multirol para simplificar tareas complejas

Artículos relacionados

360Wisdom: plataforma comercial de generación, edición y obtención de imágenes con derechos de autor (no recomendada)

Dynamiq: Marco de orquestación de cuerpos inteligentes con soporte de agentes RAG y LLM para simplificar el desarrollo de aplicaciones de IA

Mini-Cover: un creador de portadas en línea diseñado para generar portadas personalizadas para blogs, vídeos cortos, redes sociales y mucho más.

AIGCPanel: clon de código abierto del sistema de integración digital man, despliegue en un clic del cliente gratuito digital man.

Sin comentarios

Últimas colecciones

Últimos artículos

LightLLM: un marco ligero y eficiente para razonar y servir grandes modelos lingüísticos

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Utilización

Funciones principales

Modelos compatibles

Artab: muestra pinturas famosas de todo el mundo en una nueva pestaña abierta en el navegador, complemento de Chrome

CrewAI: un marco de inteligencia colaborativa multirol para simplificar tareas complejas

Artículos relacionados

360Wisdom: plataforma comercial de generación, edición y obtención de imágenes con derechos de autor (no recomendada)

Dynamiq: Marco de orquestación de cuerpos inteligentes con soporte de agentes RAG y LLM para simplificar el desarrollo de aplicaciones de IA

Mini-Cover: un creador de portadas en línea diseñado para generar portadas personalizadas para blogs, vídeos cortos, redes sociales y mucho más.

AIGCPanel: clon de código abierto del sistema de integración digital man, despliegue en un clic del cliente gratuito digital man.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos