Aprendizagem pessoal com IA
e orientação prática

Popular Science: O que é uma janela de contexto de modelo de linguagem grande?

A janela de contexto de um modelo grande é um conceito fundamental que afeta a capacidade do modelo de processar e gerar texto. O tamanho da janela de contexto determina o número total de tokens de entrada e saída que o modelo pode considerar em uma única interação.

Definição de janela de contexto

Janela de contexto refere-se ao número máximo de tokens (símbolos) que podem ser levados em conta pelo Modelo de Linguagem Grande (LLM) ao processar o texto de entrada e gerar o texto de saída ao mesmo tempo. Um token pode ser uma palavra, uma frase ou um sinal de pontuação. O tamanho da janela de contexto afeta diretamente a profundidade da compreensão do modelo das informações de entrada e a coerência do conteúdo gerado.

Marcadores de entrada e saída

  • marcador de entradaConteúdo textual: Todo o conteúdo textual fornecido ao modelo pelo usuário, incluindo perguntas, instruções, etc.
  • marcador de saídaRespostas ou resultados gerados por modelos.

Em um determinado momento, o número total de tokens de entrada e saída não pode exceder o comprimento máximo da janela de contexto. Por exemplo, a janela de contexto máxima para o modelo GPT-3.5-turbo é de 4096 tokens, o que significa que a soma da entrada do usuário e da saída do modelo não pode exceder esse limite.

Restrições de entrada e saída de macromodelos comuns

Diferentes modelos de idiomas grandes têm diferentes restrições de janela de contexto. Veja a seguir alguns modelos comuns e suas restrições:

  • GPT-3.5Janela de contexto: A janela de contexto máxima é de 4096 tokens.
  • GPT-4Janelas de contexto maiores são suportadas, com valores específicos que variam de versão para versão, geralmente entre 8.000 e 32.000 tokens.
  • Gemini 1.5Janela de contexto máxima de até 1 milhão de tokens.
  • KIMI(modelos domésticos grandes): até 2 milhões de marcadores.

Essas limitações afetam não apenas a capacidade do modelo de processar informações, mas também a qualidade e a coerência do conteúdo gerado.

Análise de exemplos específicos

Suponha que usemos o GPT-3.5 para uma tarefa que exija que ele resuma o conteúdo de um livro. O livro tem cerca de 100.000 palavras e o GPT-3.5 só consegue lidar com 4096 tokens. Se dividirmos o conteúdo do livro em vários segmentos, cada um com no máximo 4096 tokens, precisaremos interagir com o modelo passo a passo, inserindo uma parte do conteúdo de cada vez e solicitando um resumo. Isso permitiria que o modelo processasse o livro inteiro, mas aumentaria a complexidade, pois cada chamada precisaria garantir a consistência entre o texto anterior e o posterior.

Cenários de amostra

  1. entrada do usuário: Por favor, me ajude a resumir o primeiro capítulo do livro (supondo que o capítulo tenha 3000 marcadores).
  2. saída do modeloEste é um resumo do Capítulo 1 (supondo que 500 marcadores tenham sido gerados).
  3. O usuário continua a inserirEm seguida, faça um resumo do Capítulo 2 (novamente, 3.000 marcadores).

Nesse caso, o usuário precisa levar em conta que as informações anteriores podem ser esquecidas após cada interação, pois o total de entrada e saída não pode exceder 4096 tokens. Se o usuário se referir às informações do primeiro capítulo em uma solicitação subsequente que esteja fora da janela de contexto, o modelo poderá não ser capaz de responder com precisão, afetando assim a consistência do diálogo.

resumos

Compreender a janela de contexto do Big Model e suas restrições de entrada e saída é fundamental para o uso eficaz dessas técnicas. O uso inteligente dessas limitações pode ajudar os desenvolvedores a projetar aplicativos mais eficientes e coerentes, além de aprimorar a experiência do usuário. No futuro, com a evolução da tecnologia, podemos esperar janelas de contexto maiores, permitindo que os modelos de linguagem grandes lidem com informações mais complexas e longas.

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Popular Science: O que é uma janela de contexto de modelo de linguagem grande?

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil