Aprendizagem pessoal com IA
e orientação prática
Recomendação de recursos 1

TPO-LLM-WebUI: uma estrutura de IA em que você pode inserir perguntas para treinar um modelo em tempo real e gerar os resultados.

Introdução geral

O TPO-LLM-WebUI é um projeto inovador de código aberto da Airmomo no GitHub que permite a otimização em tempo real de modelos de idiomas grandes (LLMs) por meio de uma interface da Web intuitiva. Ele adota a estrutura TPO (Test-Time Prompt Optimization), dando adeus ao tedioso processo de ajuste fino tradicional e otimizando diretamente a saída do modelo sem treinamento. Depois que o usuário insere uma pergunta, o sistema usa modelos de recompensa e feedback iterativo para permitir que o modelo evolua dinamicamente durante o processo de raciocínio, tornando-o cada vez mais inteligente e melhorando a qualidade do resultado em até 50%. Seja para polir documentos técnicos ou gerar respostas de segurança, essa ferramenta leve e eficiente oferece suporte avançado para desenvolvedores e pesquisadores.

TPO-LLM-WebUI: uma estrutura de IA para otimizar os resultados do modelo em tempo real sem problemas de ajuste fino e de entrada-1


 

TPO-LLM-WebUI: uma estrutura de IA para otimizar os resultados do modelo em tempo real sem problemas de ajuste fino e de entrada-1

 

Lista de funções

  • Evolução em tempo realOtimização do resultado por meio da fase de inferência: quanto mais for usado, mais atenderá às necessidades do usuário.
  • Não é necessário ajuste finoNão atualizar os pesos do modelo e melhorar diretamente a qualidade da geração.
  • Compatível com vários modelosSuporte para carregar diferentes modelos de base e de recompensa.
  • Alinhamento dinâmico de preferênciasAjuste da produção com base no feedback de recompensa para se aproximar das expectativas humanas.
  • Visualização de raciocínioDemonstrar o processo de iteração da otimização para facilitar a compreensão e a depuração.
  • Leve e eficiente: A computação é de baixo custo e simples de implementar.
  • Código aberto e flexívelCódigo-fonte: fornece código-fonte e oferece suporte ao desenvolvimento definido pelo usuário.

 

Usando a Ajuda

Processo de instalação

A implementação do TPO-LLM-WebUI requer algumas configurações básicas do ambiente. Abaixo estão as etapas detalhadas para ajudar os usuários a começar rapidamente.

1. preparação do ambiente

Certifique-se de que as seguintes ferramentas estejam instaladas:

  • Python 3.10Ambiente operacional principal.
  • GitCódigo do projeto: Usado para obter o código do projeto.
  • GPU (recomendado)GPUs NVIDIA aceleram a inferência.

Crie um ambiente virtual:
Use a Condi:

conda create -n tpo python=3.10
conda activate tpo

ou as próprias ferramentas do Python:

python -m venv tpo
source tpo/bin/activate # Linux/Mac
tpo\Scripts\activate # Windows

Faça o download e instale as dependências:

git clone https://github.com/Airmomo/tpo-llm-webui.git
cd tpo-llm-webui
pip install -r requirements.txt

Instale o TextGrad:
O TPO depende do TextGrad, que requer instalação adicional:

cd textgrad-main
pip install -e .
cd .

2. modelo de configuração

É necessário fazer o download manual do modelo básico e do modelo de bônus:

  • modelo básicoComo deepseek-ai/DeepSeek-R1-Distill-Qwen-32B(Abraçando o rosto)
  • modelagem de incentivosComo sfairXC/FsfairX-LLaMA3-RM-v0.1(Abraçando o rosto)
    Coloque o modelo no diretório especificado (por exemplo /model/HuggingFace/), e em config.yaml Defina o caminho no campo

3. inicie o serviço vLLM

fazer uso de vLLM Modelo básico de hospedagem. Tome como exemplo 2 GPUs:

vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
--dtype auto
--api-key token-abc123
---tensor-parallel-size 2
---max-model-len 59968
--port 8000

Depois que o serviço estiver em execução, ouça a mensagem http://127.0.0.1:8000.

4. executando a WebUI

Inicie a interface da Web em um novo terminal:

python gradio_app.py

acesso ao navegador http://127.0.0.1:7860A seguir, apresentamos uma lista dos produtos mais populares e mais procurados disponíveis no mercado.

Funções principais

Função 1: Inicialização do modelo

 

  1. Abrir configurações do modelo
    Vá para a WebUI e clique em "Model Settings" (Configurações do modelo).
  2. Conectando-se ao vLLM
    Digite o endereço (por exemplo http://127.0.0.1:8000) e a chave (token-abc123).
  3. Carregando o modelo de recompensa
    Especifique o caminho (por exemplo /model/HuggingFace/sfairXC/FsfairX-LLaMA3-RM-v0.1Clique em "Initialise" e aguarde de 1 a 2 minutos.
  4. Confirmação de prontidão
    A interface exibe a mensagem "Model ready" (Modelo pronto) e você pode continuar.

Função 2: Otimizar a produção em tempo real

TPO-LLM-WebUI: uma estrutura de IA para otimizar os resultados do modelo em tempo real sem problemas de ajuste fino e de entrada-1

  1. Alternar página de otimização
    Vá para "Optimise Settings" (Otimizar configurações).
  2. Problemas de entrada
    Insira conteúdo como "Retoque este documento técnico".
  3. Otimização operacional
    Clique em "Start Optimisation" (Iniciar otimização) e o sistema gerará vários resultados candidatos e os aprimorará iterativamente.
  4. Confira o processo evolutivo
    A página de resultados exibe o resultado inicial e otimizado, com um aumento gradual da qualidade.

Recurso 3: Otimização do modo de script

Se não estiver usando a WebUI, você pode executar um script:

python run.py
--data_path data/sample.json
--ip 0.0.0.1
--port 8000
---server_model /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
--reward_model /model/HuggingFace/sfairXC/FsfairX-LLaMA3-RM-v0.1
---tpo_mode tpo
--max_iterations 2
--sample_size 5

Os resultados da otimização são salvos em registros/ Pasta.

Descrição detalhada dos recursos especiais

Diga adeus ao ajuste fino, evolua em tempo real

  • procedimento::
    1. Digite a pergunta e o sistema gera a resposta inicial.
    2. Recompense a avaliação do modelo e o feedback para orientar a próxima iteração.
    3. Após várias iterações, o resultado se torna "mais inteligente" e a qualidade melhora significativamente.
  • de pontaEconomia de tempo e aritmética com a otimização a qualquer momento, sem treinamento.

Quanto mais você o usa, mais inteligente ele fica.

  • procedimento::
    1. Use o mesmo modelo várias vezes com entradas diferentes para problemas diferentes.
    2. O sistema acumula experiência com base em cada feedback e o resultado é mais bem adaptado às necessidades.
  • de pontaAprendizagem: aprende dinamicamente as preferências do usuário para obter melhores resultados a longo prazo.

advertência

  • Requisitos de hardwareRecomendado 16 GB de memória de vídeo ou mais, várias GPUs precisam garantir que os recursos estejam livres e disponíveis. export CUDA_VISIBLE_DEVICES=2,3 Designação.
  • Solução de problemasQuando a memória de vídeo transbordar, diminua a tamanho_da_amostra ou verificar a ocupação da GPU.
  • Suporte à comunidadeConsulte o LEIAME ou os problemas do GitHub para obter ajuda.
Conteúdo 2
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " TPO-LLM-WebUI: uma estrutura de IA em que você pode inserir perguntas para treinar um modelo em tempo real e gerar os resultados.

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil