Como configurar o Mixtral-8x22B | Introdução às dicas básicas de modelagem [traduzido]

Comandos do utilitário de IAPublicado há 1 ano Círculo de compartilhamento de IA

2.3K 00

O Mixtral 8x22B já está disponível, sendo a primeira vez que um modelo do tipo GPT-4 de código aberto disponível comercialmente é apresentado.

No entanto, não se trata de um modelo otimizado por comando, mas de um modelo básico.

Isso significa que precisamos dar dicas de uma maneira totalmente nova.

Embora isso seja mais desafiador, não é impossível de ser alcançado.

Um guia conciso de dicas básicas de modelagem:

O modelo básico é solicitado da mesma forma que o modelo ChatGPT Esses modelos de otimização de comandos são muito diferentes. Pense neles como super ferramentas de preenchimento automático. Eles não são projetados para manter um diálogo; em vez disso, são treinados para complementar qualquer texto que você fornecer.

Essa diferença torna a solicitação mais difícil - e abre mais possibilidades!

Por exemplo, o modelo básico é muito mais expressivo do que o ChatGPT com o qual você está familiarizado, e você deve ter notado que as respostas geradas pelo ChatGPT são facilmente reconhecíveis porque ele foi profundamente ajustado. Basicamente, seu estilo e comportamento são fixos. É muito difícil fazer com que ele inove além do modelo em que foi treinado. Mas o modelo subjacente se esconde com infinitas possibilidades, apenas esperando que você as descubra.

Como considerar dicas para o modelo subjacente:

Ao fornecer dicas para o modelo básico, você não deve pensar muito em como descrever para o modelo o que deseja que ele faça, mas sim em mostrar o que deseja que ele faça. Você precisa realmente entrar na mente do modelo e pensar em como ele pensa.

O modelo subjacente é essencialmente um reflexo de seus dados de treinamento. Se você conseguir entender isso, poderá fazer maravilhas.

Por exemplo, se você quiser que o modelo escreva um artigo de notícias chamado "O impacto da inteligência artificial no setor de saúde", considere onde ele pode ter encontrado artigos de notícias semelhantes em seus dados de treinamento. Provavelmente em um site de notícias, certo?

Com isso em mente, você pode criar um prompt que utilize esse conceito, incluindo alguns elementos semelhantes aos que as páginas de artigos reais podem conter. Por exemplo:

Home | Manchetes | Opinião
Tempos de Inteligência Artificial
--
O impacto da inteligência artificial no setor de saúde

Você pode ver na captura de tela abaixo que, ao colocar o modelo em uma situação semelhante à que ele poderia ter visto em seus dados de treinamento, ele acabou escrevendo um artigo!

Mas esse método não é perfeito. A redação do artigo não flui bem o suficiente e ainda não há garantia de que um artigo será gerado.

Então, como podemos aumentar a confiabilidade?

Acrescentando exemplos.

O modelo básico responde muito bem a prompts de poucos disparos. Vamos acrescentar alguns exemplos ao prompt. Para agilizar, pegarei alguns artigos da Internet e os adicionarei à parte superior do prompt (não me culpe - isso é apenas uma demonstração e não entrará em produção!) .

Como você pode ver, com esses poucos exemplos, o artigo foi significativamente aprimorado.

Vamos falar sobre análise:

Um dos principais desafios ao trabalhar com modelos básicos é analisar sua saída. No caso de modelos instrucionais, você pode simplesmente instruí-los a produzir em um formato específico, por exemplo, você pode pedir que eles "respondam em JSON", que é muito fácil de analisar. Mas para os modelos básicos, isso não é tão fácil.

Esta é uma técnica que uso com frequência, chamada de "liderança de modelo".

Supondo que você precise gerar uma lista de títulos de artigos, é quase possível forçar o modelo a responder em um formato de lista adicionando os dois primeiros caracteres de uma matriz no final do prompt após descrever suas necessidades. Aqui está um exemplo:

Veja como adicionei '["' para finalizar o prompt. Esse truque simples permite que você gere dados analisáveis usando o modelo subjacente.

Métodos mais avançados:

A introdução acima é apenas alguns métodos simples de aplicação do modelo básico. Existem muitas outras técnicas eficazes que podem nos ajudar a obter melhores resultados.

Por exemplo, uma maneira de fazer isso é fazer com que o modelo pense que é um interpretador Python.

Isso pode não parecer intuitivo, mas funciona muito bem na prática.

Por exemplo, você pode tentar escrever um prompt que encurte o texto. Veja o prompt na captura de tela, que é uma aplicação prática do método.

Como você pode ver, na verdade criamos um prompt que simula o interpretador Python e fazemos com que o modelo simule a saída do interpretador. Como a função que estamos chamando é para encurtar o texto, o modelo fornece uma versão curta do texto!

Como você pode ver, o uso do modelo básico para a solicitação é muito diferente do uso do modelo de bate-papo ou guia. Espero que isso seja útil para todos aqueles que usam o Mixtral 8x22B!