Introdução geral
O ChainForge é um ambiente de programação visual de código aberto projetado para testar e avaliar a eficácia dos prompts para modelos de linguagem grande (LLMs). Ele oferece um ambiente de engenharia de dicas de fluxo de dados por meio do qual os usuários podem explorar e analisar rapidamente o impacto de diferentes dicas na qualidade da resposta dos LLMs. O ChainForge oferece suporte a uma ampla variedade de provedores de modelos, incluindo OpenAI, HuggingFace, Anthropic etc., e permite que os usuários comparem e avaliem vários modelos em uma única interface. A ferramenta é particularmente adequada para a exploração de dicas em estágio inicial e para a iteração rápida, ajudando os usuários a otimizar as configurações de dicas e modelos para obter a melhor qualidade de resposta.
Lista de funções
- Consultas de vários modelosConsulta a vários LLMs ao mesmo tempo para testar rapidamente ideias e variantes de dicas.
- Comparação da qualidade da respostaComparação da qualidade da resposta entre pistas, modelos e configurações de modelos.
- Avaliação da visualizaçãoConfigure métricas de avaliação e visualize instantaneamente os resultados de prompts, parâmetros, modelos e configurações.
- diálogo em várias camadasMúltiplas rodadas de diálogo entre os parâmetros do modelo e o modelo de bate-papo, verificando e avaliando o resultado de cada rodada de diálogo.
- Dicas de modelosMensagens de bate-papo de acompanhamento: Além de modelar prompts, você também pode modelar mensagens de bate-papo de acompanhamento.
- Exemplos de fluxos de avaliaçãoForneça vários exemplos de fluxos de avaliação para demonstrar possíveis cenários de uso.
- Instalação local e on-lineSuporte à instalação local e à avaliação on-line, proporcionando flexibilidade de uso.
- Suporte a vários modelosSuporte para OpenAI, HuggingFace, Anthropic, Google PaLM2, Azure OpenAI e muitos outros provedores de modelos.
Usando a Ajuda
Processo de instalação
instalação local
- Certifique-se de que o Python 3.8 ou posterior esteja instalado.
- Execute o seguinte comando para instalar o ChainForge:
pip install chainforge
- Após a conclusão da instalação, execute o seguinte comando para iniciar o servidor ChainForge:
serviço de forja de corrente
- Abra seu navegador e acesse
localhost:8000
Você pode começar a usar o ChainForge agora.
Instalação com o Docker
- Crie a imagem do Docker:
docker build -t chainforge .
- Execute o contêiner do Docker:
docker run -p 8000:8000 chainforge
- Abra seu navegador e acesse
127.0.0.1:8000
Você pode começar a usar o ChainForge agora.
Diretrizes para uso
- Configuração da chave de APIClique no ícone Settings (Configurações) no canto superior direito e insira a chave de API para OpenAI, Anthropic, Google PaLM, etc.
- Criar um novo projetoClique no botão "New Project" e selecione o modelo desejado e o modelo de prompt.
- Adicionando dicas e modelosAdicionar modelos e modelos de prompt ao projeto e definir diferentes parâmetros para teste.
- Avaliação operacionalClique no botão "Run" (Executar) para que o ChainForge consulte automaticamente todos os modelos selecionados e exiba os resultados da resposta.
- Comparação e visualizaçãoUse ferramentas de visualização para comparar a qualidade da resposta de diferentes prompts e modelos e selecione as melhores configurações de prompts e modelos.
- Salvar e compartilharQuando o projeto estiver concluído, você poderá salvar a avaliação e gerar um link para compartilhar com outras pessoas.
Exemplos de fluxos de avaliação
O ChainForge fornece vários exemplos de fluxos de avaliação para ajudar os usuários a começar rapidamente. Por exemplo, você pode usar o exemplo "Response Length Comparison" para comparar os comprimentos de resposta de diferentes modelos com as mesmas dicas. Você também pode criar fluxos de avaliação personalizados com métricas e visualizações de avaliação específicas.
Recursos avançados
- Nós de avaliação personalizadosOs usuários podem escrever código Python para personalizar os nós de avaliação para uma avaliação de resposta mais complexa.
- Avaliação do diálogo em várias rodadasAvaliação de diálogo: Há suporte para várias rodadas de avaliação de diálogo, permitindo que os usuários testem a qualidade das respostas para diferentes rodadas de diálogo.
- Exportação de dadosOs resultados da avaliação podem ser exportados para uma tabela do Excel para análise posterior.
O ChainForge é uma ferramenta avançada para pesquisadores, desenvolvedores e cientistas de dados para ajudá-los a otimizar as configurações de dicas e modelos e melhorar a qualidade das respostas do LLM.