llama.cpp: herramienta de inferencia eficiente, compatible con varios equipos, fácil de implementar la inferencia LLM

Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial

49.9K 00

Introducción general

llama.cpp es una biblioteca implementada en C/C++ puro diseñada para simplificar el proceso de inferencia de los modelos de lenguaje extensos (LLM). Es compatible con una amplia gama de plataformas de hardware, como Apple Silicon, GPUs NVIDIA y GPUs AMD, y proporciona varias opciones de cuantificación para aumentar la velocidad de inferencia y reducir el uso de memoria. El objetivo del proyecto es lograr una inferencia LLM de alto rendimiento con una configuración mínima tanto para entornos locales como en la nube.

Lista de funciones

Compatible con múltiples plataformas de hardware, incluidas Apple Silicon, GPU NVIDIA y GPU AMD.
Opciones de cuantificación de enteros de 1,5 a 8 bits
Compatible con varios modelos LLM, como LLaMA, Mistral, Falcon, etc.
Proporcionar una interfaz API REST para facilitar la integración
Admite razonamientos mixtos CPU+GPU
Proporcionar múltiples enlaces de lenguajes de programación, como Python, Go, Node.js, etc.
Proporcionar diversas herramientas y soporte de infraestructura, como herramientas de transformación de modelos, equilibradores de carga, etc.

Utilizar la ayuda

Proceso de instalación

Almacén de clonación:

   git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

Compila el proyecto:

   make

Normas de uso

transformación de modelos

llama.cpp proporciona una variedad de herramientas para convertir y cuantificar modelos para que se ejecuten eficientemente en hardware diferente. Por ejemplo, el modelo Cara abrazada puede convertirse al formato GGML mediante el siguiente comando:

python3 convert_hf_to_gguf.py --model <model_name>

Ejemplo de razonamiento

Tras la compilación, puede utilizar los siguientes comandos para realizar el razonamiento:

./llama-cli -m models/llama-13b-v2/ggml-model-q4_0.gguf -p "你好，世界！"

Uso de la API REST

llama.cpp también proporciona un servidor HTTP compatible con la API de OpenAI que puede utilizarse para servicios locales de inferencia de modelos. Inicie el servidor:

./llama-server -m models/llama-13b-v2/ggml-model-q4_0.gguf --port 8080

A continuación, se puede acceder a la interfaz web básica a través de un navegador o utilizando la API para solicitudes de inferencia:

curl -X POST http://localhost:8080/v1/chat -d '{"prompt": "你好，世界！"}'

Flujo detallado de funcionamiento de las funciones

Modelo de cargaEn primer lugar, debe descargar el archivo del modelo y colocarlo en el directorio especificado; a continuación, cargue el modelo mediante la herramienta de línea de comandos.
Configuración del razonamientoLos parámetros relevantes para la inferencia, como la longitud del contexto, el tamaño del lote, etc., pueden establecerse mediante archivos de configuración o parámetros de línea de comandos.
Integración API: A través de la interfaz REST API, llama.cpp puede integrarse en aplicaciones existentes para habilitar servicios de razonamiento automatizados.
optimización del rendimientoEl uso de opciones de cuantificación y funciones de aceleración por hardware puede mejorar significativamente la velocidad y la eficacia de la inferencia.

Últimos recursos sobre IA # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

tarjeta de luz: HTML5 herramienta generadora de tarjetas, crear hermosas tarjetas de contenido de herramientas simples

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 1 año

043.3K

MiniMind: 2 horas de formación desde cero 26M parámetros GPT herramienta de código abierto

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 10 meses

054.1K

ai-gradio: integra fácilmente múltiples modelos de IA y crea aplicaciones multimodales basadas en Gradio

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 11 meses

038.6K

Keevx - Plataforma de creación de vídeos humanos digitales con IA, generación de guiones y vídeos con un solo clic

Últimos recursos sobre IA

hace 7 meses

035.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

llama.cpp: herramienta de inferencia eficiente, compatible con varios equipos, fácil de implementar la inferencia LLM

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

transformación de modelos

Ejemplo de razonamiento

Uso de la API REST

Flujo detallado de funcionamiento de las funciones

Jan: Asistente de IA offline de código abierto, sustituto de ChatGPT, ejecuta modelos de IA locales o conéctate a la IA en la nube.

Interfaz web de generación de texto: interfaz de chat basada en modelos lingüísticos de gran tamaño de Gradio y compatible con varios servicios backend.

Artículos relacionados

tarjeta de luz: HTML5 herramienta generadora de tarjetas, crear hermosas tarjetas de contenido de herramientas simples

MiniMind: 2 horas de formación desde cero 26M parámetros GPT herramienta de código abierto

ai-gradio: integra fácilmente múltiples modelos de IA y crea aplicaciones multimodales basadas en Gradio

Keevx - Plataforma de creación de vídeos humanos digitales con IA, generación de guiones y vídeos con un solo clic

Sin comentarios

Últimas colecciones

Últimos artículos

llama.cpp: herramienta de inferencia eficiente, compatible con varios equipos, fácil de implementar la inferencia LLM

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

transformación de modelos

Ejemplo de razonamiento

Uso de la API REST

Flujo detallado de funcionamiento de las funciones

Jan: Asistente de IA offline de código abierto, sustituto de ChatGPT, ejecuta modelos de IA locales o conéctate a la IA en la nube.

Interfaz web de generación de texto: interfaz de chat basada en modelos lingüísticos de gran tamaño de Gradio y compatible con varios servicios backend.

Artículos relacionados

tarjeta de luz: HTML5 herramienta generadora de tarjetas, crear hermosas tarjetas de contenido de herramientas simples

MiniMind: 2 horas de formación desde cero 26M parámetros GPT herramienta de código abierto

ai-gradio: integra fácilmente múltiples modelos de IA y crea aplicaciones multimodales basadas en Gradio

Keevx - Plataforma de creación de vídeos humanos digitales con IA, generación de guiones y vídeos con un solo clic

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos