Fábrica LLaMA: ajuste eficaz de más de cien macromodelos de código abierto, fácil personalización de modelos

Introducción general

LLaMA-Factory es un marco de ajuste unificado y eficiente que permite la personalización flexible y el entrenamiento eficaz de más de 100 grandes modelos lingüísticos (LLM). La interfaz web integrada LLaMA Board permite a los usuarios ajustar modelos sin necesidad de escribir código. El marco integra diversos métodos de entrenamiento avanzados y consejos prácticos para mejorar significativamente la velocidad de entrenamiento y la utilización de la memoria de la GPU.

LLaMA Factory:高效微调百余种开源大模型,轻松实现模型定制

 

Lista de funciones

  • Compatibilidad con varios modelosSoporte para LLaMA, LLaVA, Mistral, Qwen y otros modelos multilingües.
  • Múltiples métodos de formación: Incluye recorte de volumen completo, recorte por congelación, LoRA, QLoRA, etc.
  • algoritmo eficazIntegración de GaLore, BAdam, Adam-mini, DoRA y otros algoritmos avanzados.
  • habilidad prácticaSoporte para FlashAttention-2, Unsloth, Liger Kernel y más.
  • Seguimiento experimental: Proporciona herramientas de monitorización como LlamaBoard, TensorBoard, Wandb, MLflow, etc.
  • inferencia rápidaProporciona API similares a OpenAI, Gradio UI e interfaces CLI.
  • Soporte de conjuntos de datosSoporte para descargar modelos preentrenados y conjuntos de datos de HuggingFace, ModelScope y otras plataformas.

 

Utilizar la ayuda

Proceso de instalación

  1. Clona el código del proyecto:
   git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
  1. Instale la dependencia:
   pip install -e ".[torch,metrics]"

Las dependencias opcionales incluyen: torch, torch-npu, metrics, deepspeed, liger-kernel, bitsandbytes, y más.

Preparación de datos

consulte data/README.md Más información sobre el formato de archivo de los conjuntos de datos. Puede utilizar conjuntos de datos en el hub HuggingFace / ModelScope / Modelers, o cargar conjuntos de datos en su disco local.

Inicio rápido

Utilice los siguientes comandos para ejecutar LoRA para afinar, razonar y fusionar modelos Llama3-8B-Instruct:

llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml
llamafactory-cli chat examples/inference/llama3_lora_sft.yaml
llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml

Para un uso más avanzado, consulte examples/README.md.

Uso de la interfaz gráfica de usuario de la tarjeta LLaMA

El ajuste fino se realiza a través de la interfaz gráfica de usuario de la placa LLaMA proporcionada por Gradio:

llamafactory-cli webui

Despliegue de Docker

Para usuarios de CUDA:

cd docker/docker-cuda/
docker compose up -d
docker compose exec llamafactory bash

Para usuarios de Ascend NPU:

cd docker/docker-npu/
docker compose up -d
docker compose exec llamafactory bash

Para usuarios de AMD ROCm:

cd docker/docker-rocm/
docker compose up -d
docker compose exec llamafactory bash

Despliegue de API

Utilizar API de tipo OpenAI y vLLM Razonamiento:

API_PORT=8000 llamafactory-cli api examples/inference/llama3_vllm.yaml

Visite esta página para consultar la documentación de la API.

Descargar modelos y conjuntos de datos

Si tiene problemas para descargar modelos y conjuntos de datos de Hugging Face, puede utilizar ModelScope:

export USE_MODELSCOPE_HUB=1

Entrene un modelo especificando el ID del modelo de ModelScope Hub, por ejemplo LLM-Research/Meta-Llama-3-8B-Instruct.

Registro de resultados experimentales con W&B

Para utilizar Pesas & Biases registra los resultados de sus experimentos con los siguientes parámetros en el archivo yaml:

wandb:
project: "your_project_name"
entity: "your_entity_name"
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...