O NoLiMA, lançado em fevereiro de 2025, é um método para avaliar a compreensão de textos longos no Modelo de Linguagem Grande (LLM). Diferentemente do teste tradicional Needle-in-a-Haystack (NIAH), que se baseia na correspondência de palavras-chave, seus recursos mais importantes são Encontrar respostas em textos longos só é possível por meio da elaboração cuidadosa de perguntas e mensagens-chave que forcem o modelo a se envolver em uma compreensão e um raciocínio semânticos profundos.
NoLiMa: https://arxiv.org/abs/2502.05167
Os resultados do NoLiMA revelam uma questão importante: os LLMs que afirmam ser capazes de processar centenas de milhares ou até milhões de tokens têm desempenho significativamente inferior em tarefas que realmente exigem a compreensão de textos longos. Por exemplo, sob o comprimento de 32 mil tokens, o desempenho de 10 modelos testados não chega à metade do desempenho de textos curtos (menos de 1 mil tokens); até mesmo o modelo de melhor desempenho, GPT-4o, cai de um desempenho quase perfeito de 99,3% para 69,7%.
Inspirados pelo NoLiMA, usamos o modelo vetorial jina-embeddings-v3
Foram realizados experimentos semelhantes. A razão para investigar o modelo vetorial é que, nos sistemas de geração aumentada de recuperação (RAG), o modelo de recuperação (também conhecido como modelo vetorial) é bom ou ruim, o que determina diretamente a eficácia de todo o sistema.
Nossa pesquisa se concentra em duas questões centrais:
- Os modelos vetoriais podem executar o "raciocínio de um salto" em textos longos? Nos testes NIAH tradicionais, as perguntas e as respostas geralmente correspondem diretamente (por exemplo, "Em que ano João foi a Paris?" e "John foi a Paris em 2019"). Ao contrário do "pin" que projetamos, ele exige que o modelo raciocine semanticamente (por exemplo, a pergunta é "Qual personagem esteve na França?"). O "pin" é "Yuki mora ao lado da Semper Opera House", e o modelo precisa saber que a Semper Opera House fica na Alemanha).
- As extensões de consulta podem melhorar a recuperação de textos longos? A expansão da consulta consiste em adicionar algumas palavras relacionadas à consulta para tornar a semântica mais rica. Queremos ver se essa abordagem pode compensar as deficiências dos modelos vetoriais ao lidar com textos longos.
Teste NIAH tradicional (permite a correspondência de palavras-chave) vs. teste NOLIMA (requer raciocínio semântico)
Os resultados experimentais com LLMs mostraram que eles dependem muito da correspondência de texto superficial e não o suficiente de um raciocínio mais profundo. Perguntamos se o mesmo se aplica aos modelos vetoriais. Isso pode nos permitir ver o que ainda está faltando nas técnicas atuais de pesquisa semântica.
Construção de mensagens-chave e contexto
Construção de informações-chave
Nos testes tradicionais de "agulha no palheiro", as mensagens-chave ("agulhas") geralmente são redigidas de forma muito parecida com as perguntas que estão sendo procuradas. Por exemplo:
- PERGUNTA: "Qual personagem já esteve em Dresden?"
- Mensagem principal: "Yuki mora em Dresden".
Mas o artigo do NoLiMa não faz isso, e nós não queremos fazer isso. O que queremos observar é a compreensão da semântica pelo modelo, e não apenas a correspondência de palavras-chave. Assim, criamos uma variante de "single-hop" ("single-hop" significa que a resposta e a pergunta precisam ser conectadas por uma pequena inferência) e usamos deliberadamente algumas palavras que não apareciam no texto, além de frases invertidas.
- PERGUNTA: "Qual personagem já esteve em Dresden?"
- INFORMAÇÕES-CHAVE (PADRÃO): "Na verdade, Yuki mora ao lado da Ópera Semper."
- Mensagem principal (invertida): "A Ópera Semper fica ao lado de onde Yuki mora."
Seguindo a metodologia do artigo, geramos várias categorias de grupos de "mensagem-chave-pergunta" (cada um contendo uma pergunta, uma mensagem-chave de "um salto" e uma versão da mensagem-chave de "um salto" em sentido inverso). "mensagem-chave inversa").
Os exemplos são mostrados abaixo:
formulário | problemas | Informações-chave originais (apenas para referência) | Mensagens-chave de salto único | Inversão da seleção de informações importantes |
---|---|---|---|---|
Restrições dietéticas | Qual personagem não pode comer comida de peixe? | Alice não pode comer peixe. | Alice então menciona que é vegetariana há muitos anos. | Uma dieta vegetariana tem sido importante para Alice há muitos anos. |
condição médica | Qual personagem não pode beber leite? | Bob não pode beber leite. | Bob explica que é intolerante à lactose. | A intolerância à lactose afeta Bob todos os dias. |
habilidade verbal | Qual personagem fala francês? | Charlie fala francês. | De fato, Charlie estudou na Sorbonne. | Charlie concluiu sua graduação na Sorbonne. |
Histórico profissional | Qual personagem é o músico? | Diane é uma musicista. | Diane regeu na Sydney Opera House em 2013. | A apresentação na Sydney Opera House foi conduzida por Diane. |
Os nomes acima são apenas exemplos. No "pin" real, os nomes são selecionados aleatoriamente de uma lista de nomes de diferentes culturas.
Além disso, as "informações da chave original" (ou seja, a versão literalmente combinada) na tabela são apenas para sua conveniência e não serão usadas em nossos experimentos.
contextualização
Preparamos dez livros públicos, cada um com pelo menos 50.000 tokens, e selecionamos aleatoriamente alguns fragmentos curtos de cada livro (cada fragmento não tem mais de 250 tokens) e, em seguida, juntamos esses fragmentos para formar diferentes comprimentos de "contextos", cujos comprimentos são 128, 256, 512, 1024, 2048, 4096 e 8192 tokens, respectivamente. Esses fragmentos são então unidos para formar "contextos" de diferentes comprimentos: 128, 256, 512, 1024, 2048, 4096 e 8192 palavras, respectivamente. Em seguida, colocamos uma mensagem-chave em cada contexto:
Crie contexto com clipes curtos e mensagens-chave do livro
Para ser mais específico, digamos que pegamos a mensagem-chave "Na verdade, Yuki mora ao lado da Semper Opera House" e a colocamos no 50º lema em um contexto de 128 lemas:
Exemplo de uma agulha em um palheiro
Usamos jina-embeddings-v3
O modelo é usado para vetorizar o texto e, em seguida, são calculadas as pontuações de similaridade do texto de "informações-chave" e do texto de "contexto":
Similaridade Pergunta-Haystack = 0,2391
Para dar sentido a essa pontuação de similaridade, precisamos realizar mais uma etapa de "normalização". Isso é feito calculando primeiro a pontuação de similaridade entre a pergunta e a mensagem-chave padrão (ou seja, sem contexto, comparação direta). Em seguida, divida a pontuação de similaridade anterior "mensagem-chave-contexto" pela pontuação de similaridade "pergunta-mensagem-chave":
Similaridade entre pergunta e agulha = 0,3598
Similaridade entre a consulta normalizada e o palheiro = 0,2391 / 0,3598 = 0,6644
Por que normalizar? Porque as pontuações de similaridade calculadas podem ser diferentes para diferentes modelos de vetores. E.jina-embeddings-v3
Os modelos geralmente subestimam a similaridade entre dois textos.
Para cada mensagem-chave (tanto a versão padrão quanto a versão flip-flop), geramos 10 contextos de diferentes comprimentos, em cada um dos quais a mensagem-chave aparece em um lugar diferente. Para a mesma mensagem-chave e o mesmo comprimento de contexto, esses 10 contextos têm a seguinte aparência:
Coloque informações importantes em intervalos regulares em dez contextos
Além disso, para ter um controle, também geramos um contexto para cada condição de teste (comprimento de contexto diferente) que não continha nenhuma informação-chave. Isso nos dá um total de 3.234 contextos gerados.
Por fim, usamosjina-embeddings-v3
(usando o LoRA padrão de correspondência de texto) codifica cada contexto. Se o número total de elementos léxicos de um contexto exceder 8192 (que é o limite superior do modelo jina-embeddings-v3), truncamos o excesso e codificamos também o correspondente por pergunta.
Avaliação de indicadores
Projetamos uma estrutura de avaliação com várias métricas diferentes para medir o desempenho dos modelos de vetores em diferentes comprimentos de contexto:
Principais indicadores
1. escores de similaridade normalizados
Essa é a métrica principal. Ela não se limita a analisar a semelhança semântica entre a pergunta e todo o contexto, mas também considera a pergunta e as informações-chave e as compara separadamente. Isso nos dá uma ideia do desempenho do modelo em um contexto que contém informações-chave em comparação com o desempenho em uma situação ideal (em que as perguntas e as informações-chave são comparadas diretamente).
O método de cálculo específico é: primeiro, calcular a pontuação de similaridade de cosseno entre a pergunta e as informações-chave correspondentes como referência; depois, dividir a "similaridade pergunta-contexto" por essa referência para obter a pontuação de similaridade normalizada.
2. muito melhor do que um palpite aleatório
Para modelos de vetores, só faz sentido comparar a semelhança da mesma pergunta com textos diferentes. Portanto, além da pontuação de similaridade normalizada, temos que verificar se a pergunta é realmente mais semelhante a todo o contexto do que a um trecho aleatório de texto do mesmo tamanho, mas sem informações importantes. Em outras palavras, queremos ver se a resposta que o modelo encontra é realmente mais precisa do que um palpite cego.
Indicadores secundários
1. análise da competência distintiva
Essa métrica analisa a capacidade do modelo de distinguir informações importantes de outros conteúdos irrelevantes. Há dois aspectos específicos:
- Separação médiaExemplo: Qual é a diferença entre as passagens que contêm respostas ("exemplos positivos") e as passagens que não contêm ("exemplos negativos")?
- Pontuação AUC (área sob a curva)A capacidade do modelo de distinguir entre informações importantes e outros conteúdos é medida calculando-se a área sob a curva ROC (Subject Operating Characteristics Curve).
2. efeitos posicionais
Também examinaremos se a localização das principais informações no contexto afeta a facilidade com que o modelo as encontra. Analisaremos:
- Existe alguma relação (coeficiente de correlação) entre o local das principais informações e a pontuação de similaridade?
- O que acontece com o desempenho do modelo (inclinação da regressão) quando as informações-chave são colocadas em posições diferentes.
- Agrupe as mensagens-chave por local e veja como os diferentes grupos se comportam de forma diferente.
estudo conclui
As pontuações de similaridade e a precisão diminuem à medida que o texto fica mais longo
Os resultados experimentais são claros: quanto mais longo for o contexto do texto, pior será o desempenho do modelo.A pontuação média de similaridade cai de 0,37 em 128 palavras para 0,10 em 8 mil palavras, e essa queda não é uma linha reta, mas é particularmente rápida entre 128 palavras e 1 mil palavras.
Desempenho da normalização em relação ao comprimento do contexto
Também descobrimos queInverter a declaração de informações-chave (invertendo-a) tem pouco efeito sobre o modelo que as encontra. Seja "Na verdade, Yuki mora perto da Ópera de Semper" (a declaração padrão) ou "A Ópera de Semper fica bem perto de onde Yuki mora" (a declaração invertida), a probabilidade de o modelo encontrá-los é quase a mesma:
Comparação do desempenho do modelo em duas contas (ordem padrão vs. ordem inversa)
No entanto.O tipo de conteúdo das principais informações tem impacto sobre a dificuldade de encontrar modelos. Se forem informações sobre locais e pontos de referência, o modelo é mais fácil de encontrar; mas se forem informações sobre dieta e condições de saúde, o modelo é mais difícil de encontrar, e a dificuldade aumenta mais rapidamente à medida que o texto se torna mais longo:
Relação entre a dificuldade de encontrar diferentes tipos de informações (agrupamento) (desempenho normalizado) e o tamanho do texto
Para verificar se o modelo é realmente melhor do que a adivinhação, comparamos os resultados do modelo com uma "adivinhação aleatória". Um "palpite aleatório" é um trecho de texto tão longo quanto a pergunta, mas que não contém informações importantes. Descobrimos queQuanto mais longo o contexto, mais os resultados do modelo se aproximam de um palpite cego, e escolher um trecho de texto inútil depois dele é quase tão bom quanto.
Comparação do desempenho do modelo e da probabilidade aleatória (com probabilidade de 0,5)
Também agrupamos os dados de acordo com o tipo de conteúdo das principais informações e, em seguida, analisamos o desempenho do modelo. Os resultados foram semelhantes: para alguns tipos de informações (por exemplo, restrições alimentares), o modelo não foi muito melhor do que a adivinhação, mesmo que o texto não fosse muito longo; para outros tipos de informações (por exemplo, locais e pontos de referência), o modelo teve um bom desempenho, independentemente do tamanho do texto:
Probabilidade de o modelo encontrar uma resposta versus adivinhação aleatória para diferentes tipos de agrupamentos de informações
Inverter a declaração das informações-chave não tem praticamente nenhum efeito sobre a probabilidade de o modelo encontrá-las. A figura abaixo mostra como a probabilidade de o modelo encontrar o texto que contém corretamente as informações-chave é muito maior do que a probabilidade de fazer um palpite aleatório. Vamos examinar as duas declarações de informações-chave (padrão e invertida) separadamente:
Ordem padrão versus ordem inversa, qual é a probabilidade de o modelo encontrar a resposta do que um palpite aleatório?
Como pode ser visto na figura, a tendência do desempenho do modelo é semelhante em ambas as declarações. Portanto, não faremos distinção entre os dois casos posteriormente.
O modelo ainda consegue distinguir entre informações úteis e inúteis?
Uma de nossas descobertas mais importantes foi sobre a capacidade dos modelos vetoriais de distinguir entre informações úteis e inúteis em textos de diferentes tamanhos. Fizemos uma "análise de separação" e descobrimos que a capacidade do modelo de encontrar a resposta certa cai muito rapidamente entre 128 e 1.000 elementos de palavras. Depois disso, ela continua caindo, mas em um ritmo mais lento.
Relação entre separação e comprimento do contexto
Em textos curtos (128 palavras), o modelo distingue claramente entre informações úteis e inúteis.A separação média foi de 0,1, com uma AUC de 0,81 (ou seja, a passagem que contém a resposta foi classificada em primeiro lugar 81 vezes em 100).
No entanto, à medida que o texto se torna mais longo, o desempenho do modelo aumenta drasticamentedescerCom 1.000 palavras, a separação cai para 0,04 (menos 60%) e a AUC cai para 0,66, indicando que o modelo não é mais capaz de distinguir. Em 8.000 palavras, a separação é quase zero (0,001) e a AUC está próxima de 0,5 (comparável à adivinhação aleatória), o que significa que o modelo não é mais capaz de distinguir informações úteis com base na pontuação de similaridade.
A taxa na qual a capacidade do modelo de distinguir informações úteis diminui com o aumento do tamanho do texto é impressionante.Enquanto a pontuação de similaridade bruta caiu cerca de 751 TP3T de 128 para 8.000 palavras, a métrica de separação caiu quase 991 TP3T e o tamanho do efeito caiu ainda mais, 98,61 TP3T!A dificuldade dos modelos vetoriais em lidar com textos longos não está apenas nos escores de similaridade reduzidos, mas também na grave degradação da capacidade de distinguir entre informações úteis e inúteis, o que é muito mais do que esperávamos anteriormente.
Como a localização das principais informações afeta a dificuldade de encontrá-las?
Em geral, é mais fácil encontrar informações importantes colocando-as na parte superior do texto. Entretanto, não é necessariamente verdade que colocá-las no meio dificulta a localização:
O efeito de colocar informações importantes em diferentes posições em textos de diferentes tamanhos para encontrá-las
Os resultados experimentais também confirmam que é mais fácil encontrar informações importantes quando elas são colocadas no início. Além disso, se o texto for curto, é mais fácil encontrá-las quando colocadas perto do final. No entanto, independentemente do tamanho do texto, não é tão fácil encontrá-la quando ela é colocada no meio:
Compare a probabilidade de encontrar as informações-chave colocando-as em locais diferentes.
As extensões de consulta podem ajudar?
Recentemente, publicamos um blog sobre "expansão de consultas". Esse é um método comum usado na pesquisa, que significa simplesmente que, ao fazer uma pergunta, você adiciona palavras relevantes à sua pergunta para tornar os resultados da pesquisa mais precisos.
Expansão de consulta baseada em LLM: mais informações, pesquisas mais precisas
Desde o advento dos modelos vetoriais, a forma como pesquisamos mudou muito. Um método como a "expansão de consultas", que depende muito da adição de vocabulário, ainda é útil na era da IA? Acreditamos que sim.
Naquele blog, usamos o Large Model (LLM) para gerar algumas palavras estendidas e, em seguida, adicionamos essas palavras ao vetor de consulta e descobrimos que os resultados da pesquisa eram muito melhores. Agora, gostaríamos de ver se isso ajuda em tarefas de pesquisa de texto longo, como "encontrar uma agulha em um palheiro". Por exemplo, quando você pergunta:
Qual personagem já esteve em Dresden?
Vamos expandi-lo com um modelo grande (Gemini 2.0), adicionar 100 palavras relacionadas e ele provavelmente terá a seguinte aparência:
Qual personagem já esteve em Dresden? Personagem: personagem fictício Personagem literário Personagem principal Personagem vilão Papel Identidade Personagem de teatro
Dresden: Dresden, Alemanha; bombardeio de Dresden na Segunda Guerra Mundial Ficção histórica Kurt Vonnegut Matadouro-Cinco Cidade saxônica Rio Elba Marcos culturais
Been: visitou Been to Been to Apareceu em Apareceu em Caracterizado como ambientado em Aconteceu em Local de fundo
Quão úteis podem ser as extensões de consulta?
Executamos um experimento que gerou três conjuntos de consultas expandidas, cada uma com 100, 150 e 250 palavras adicionadas (para obter detalhes sobre como adicioná-las, consulte este artigo). Em seguida, executamos o experimento anterior mais três vezes, cada vez com um conjunto diferente de consultas expandidas.
Acontece que, independentemente do número de palavras adicionadas, assim que o texto é longo, o desempenho do modelo puxa a virilha, quase o mesmo que quando nenhuma expansão de consulta é usada:
Desempenho do modelo agregado para vários cenários de expansão de consultas
Em comparação com o problema sem a extensão, em todos os casos em que as palavras são adicionadas, é a mesma história de sempre:Quanto mais longo for o texto, pior será o desempenho. Além disso, esse declínio ainda é desigual, caindo mais entre 128 palavras e 1.000 palavras:
A probabilidade de o modelo encontrar a resposta correta para vários cenários de expansão de consultas.
No entanto! Uma análise mais detalhada da métrica "Comparison Ratio" mostra que a expansão da consulta ainda é útil:Isso torna mais fácil para o modelo encontrar o texto que contém informações importantes. Sem a expansão da consulta, o modelo tem um desempenho tão bom quanto uma estimativa aleatória de 8 mil comprimentos de elementos léxicos.
Como interpreto os resultados de uma expansão de consulta?
Esses resultados são consistentes com o artigo da NoLiMa e com nossas descobertas anteriores sobre expansão de consultas. Isso pode ser interpretado da seguinte forma:
- Adicionar palavras com moderação funciona melhorO efeito de adicionar 100 palavras é melhor do que adicionar 150 ou 250 palavras, o que significa que, ao expandir a consulta, há um grau de adição de palavras, e adicionar muitas palavras trará ruído semântico em vez de sinais, o que interferirá no julgamento do modelo. Ao adicionar 250 palavras, é muito provável que sejam acrescentados alguns termos com pouca relevância para a pergunta, e essas palavras não ajudarão em um texto longo.
- Textos longos continuam sendo um desafio centralMesmo com a expansão da consulta, o desempenho do modelo ainda cai significativamente quando o contexto é longo. A arquitetura atual do modelo baseado em atenção tem um gargalo fundamental ao lidar com textos longos, um problema que não pode ser resolvido simplesmente adicionando algumas palavras.
- O alcance da pesquisa ainda tem valorEmbora o desafio do texto longo não tenha sido completamente superado, a métrica Comparison Ratio ficou consistentemente acima de 0,5, sugerindo que a expansão da consulta ainda é eficaz. Mesmo com 8.000 palavras de texto longo, as perguntas de expansão de consulta têm mais probabilidade de encontrar a resposta correta do que a adivinhação aleatória. Isso nos inspira que a expansão de consultas ainda é uma direção em potencial para melhorar a capacidade de processamento de textos longos dos modelos vetoriais, o que vale a pena explorar mais.
Impacto da correspondência literal nos modelos vetoriais?
Em experimentos anteriores, para medir a capacidade do modelo vetorial de realizar "raciocínio de um salto" em textos longos, evitamos deliberadamente qualquer repetição literal entre perguntas e informações importantes. Os resultados mostram que, mesmo com a expansão da consulta, a capacidade do modelo de encontrar informações relevantes em textos longos se deteriora. Esse fenômeno é interessante. Por todos os direitos, o modelo vetorial deveria ser capaz de fazer esse tipo de raciocínio por conta própria, sem ajuda adicional. Afinal, acabamos de substituir "Dresden" por "Semper Opera House", que é basicamente a substituição de uma palavra por outra semelhante.
Então, qual é a importância da correspondência literal na correspondência semântica? Ou o comprimento do texto tem um impacto maior? Para descobrir, reformulamos o experimento de modo que houvesse repetições literais entre mensagens-chave e perguntas, por exemplo:
- PERGUNTA: "Qual personagem já esteve em Dresden?"
- Mensagem principal (padrão): "Na verdade, Yuki mora em Dresden."
- Mensagem principal (invertida): "Dresden é onde Yuki mora."
Observe que, aqui, fornecemos a informação "Yuki mora em Dresden" diretamente, em vez de exigir que o leitor deduza "A Ópera Semper fica em Dresden, portanto, as pessoas que moram na vizinhança já estiveram em Dresden", como era o caso antes.
Alteramos todos os 22 grupos de perguntas e informações-chave para esse formulário simples e, em seguida, usamos o mesmo modelo de vetor jina-embeddings-v3
Executei o experimento novamente, tentei vários comprimentos de texto e locais de informações importantes.
Desempenho da normalização em relação ao comprimento do contexto
Desempenho do modelo vs. palpite aleatório (0,5)
Índices comparativos em diferentes locais
Os resultados foram inesperados. Mesmo que haja as mesmas palavras na pergunta e na resposta, a capacidade do modelo de distinguir entre a resposta correta e um palpite aleatório ainda diminui rapidamente assim que o texto é longo. É claro que ainda é um pouco melhor do que o caso em que não há palavras idênticas.
Isso demonstra, em última análise, que o comprimento do contexto e a localização das informações-chave dentro dele têm um impacto maior sobre o desempenho do modelo vetorial na tarefa "agulha em um palheiro" do que o texto específico das informações-chave (representação semântica).
chegar a um veredicto
Em geral, as conclusões de nossos experimentos com modelos vetoriais são consistentes com os experimentos do NoLiMA com modelos de linguagem grandes: quanto mais longo o texto, mais difícil é para o modelo encontrar a resposta correta. Nossos experimentos também mostram que, mesmo que as palavras-chave da pergunta e da resposta sejam exatamente as mesmas, o modelo nem sempre encontra a resposta correta.
Nossos resultados experimentais são altamente consistentes com as conclusões do artigo da NoLiMA sobre LLM:Para modelos vetoriais, o comprimento do contexto é um fator essencial para o desempenho da recuperaçãoQuanto mais longo for o texto, mais difícil será para o modelo encontrar a resposta correta. Mesmo que as palavras-chave da pergunta e da resposta sejam exatamente as mesmas, o modelo nem sempre encontrará a resposta correta.
- O desempenho diminui drasticamente com o comprimentoO modelo jina-embeddings-v3 tem bom desempenho em textos curtos (128 palavras), mas seu desempenho cai rapidamente em textos longos. A pontuação de similaridade normalizada cai de 0,37 em 128 palavras para 0,10 em 8 mil palavras e, o que é mais importante, a capacidade do modelo de distinguir entre informações relevantes e irrelevantes (que chamamos de "separação") desaparece quase completamente.
- O "raciocínio de salto único" é difícil.O desempenho do modelo se deteriora significativamente, mesmo com textos curtos, se não houver sobreposição literal direta entre a pergunta e a resposta. Isso sugere que o modelo vetorial tem dificuldades com o "raciocínio de um salto" (por exemplo, inferir "estive em Dresden" de "mora ao lado da Ópera Semper").
- As extensões de consulta ajudam, mas não são tudoConclusão: A expansão da consulta pode melhorar o desempenho da recuperação até certo ponto, especialmente com textos longos, fazendo com que o modelo supere as suposições aleatórias. No entanto, ela não resolve completamente os problemas trazidos por textos longos, e o desempenho ainda cairá à medida que o texto ficar mais longo. Além disso, é preciso ter cuidado ao adicionar palavras, pois palavras irrelevantes introduzirão ruído semântico e reduzirão o desempenho.
- A correspondência literal não é a chaveMesmo que haja as mesmas palavras-chave na pergunta e na resposta, se o texto for longo, o modelo ainda não conseguirá encontrá-la. Isso mostra que a posição da resposta no texto tem mais influência sobre o fato de o modelo conseguir encontrar a resposta do que a forma como a resposta é dita e o tamanho do texto.
De modo geral, nossa pesquisa sugere que os gostos de jina-embeddings-v3
Esse modelo vetorial, que é bom para lidar com textos curtos, ainda não é capaz de lidar com textos longos que exigem uma compreensão mais profunda da semântica. Isso nos motiva a continuar explorando técnicas mais eficazes para a recuperação de textos longos, e esperamos que, no futuro, o jina-embeddings-v4
Há um avanço.