Aprendizagem pessoal com IA
e orientação prática

voyage-3 e voyage-3-lite: uma nova geração de modelos de incorporação de uso geral pequenos, mas eficientes

resumos - Temos o prazer de anunciar o lançamento do viagem-3 responder cantando voyage-3-lite modelos incorporados que alcançaram novos patamares em termos de qualidade de recuperação, latência e custo.viagem-3 Melhoria média de desempenho de 7,55% em relação ao OpenAI v3 large em todos os domínios de avaliação, incluindo código, jurídico, financeiro, multilíngue e contextos longos, juntamente com uma redução de custo de 2,2x e uma redução de 3x nas dimensões de incorporação, resultando em uma redução de 3x no custo do vectorDB.voyage-3-lite Ele melhora a precisão da recuperação em 3,82% em relação ao OpenAI v3 large, reduz o custo em um fator de 6 e reduz a dimensionalidade da incorporação em um fator de 6. Ambos os modelos suportam o comprimento de contexto de 32K tokens, que é 4 vezes maior que o OpenAI.

 


Nos últimos nove meses, lançamos a série Voyage 2 de kits de modelos incorporados, que incluem recursos como voyage-large-2 Esses modelos de uso geral de última geração, bem como vários modelos específicos de domínio, como código de viagem-2elei de viagem-2eviagem-financeira-2 responder cantando viagem-multilíngue-2Todos esses modelos são adequadamente treinados em dados de seus respectivos domínios. Por exemplo.viagem-multilíngue-2 Excelente desempenho em francês, alemão, japonês, espanhol e coreano, além do melhor desempenho da categoria em inglês. Também ajustamos o modelo para casos de uso específicos e dados de organizações específicas, como Harvey.ai do modelo de incorporação legal.

 

Agora temos o prazer de apresentar a linha Voyage 3 de modelos incorporados, incluindo viagem-3 responder cantando voyage-3-litee estará disponível em algumas semanas voyage-3-large. Esses modelos superam a concorrência em termos de qualidade de recuperação e, ao mesmo tempo, reduzem significativamente o preço e o custo subsequente do vectorDB. Especificamente.viagem-3 Com as seguintes características:

  • O desempenho foi, em média, 7,55% superior ao do OpenAI v3 large em todos os oito domínios de avaliação (técnico, código, web, jurídico, financeiro, multilíngue, proteção e contexto longo).
  • Custa 2,2x menos que o OpenAI v3 large, 2,2x menos que o Coesão A English v3 é 1,6 vezes menor e custa $0,06 por 1 milhão de tokens.
  • dimensão de incorporação do que o OpenAI (3072) e o E5 Mistral (4096) é de 3 a 4 vezes menor (1024), reduzindo o custo do vectorDB por um fator de 3 a 4.
  • Oferece suporte a comprimentos de contexto de 32K token, em comparação com 8K para OpenAI e 512 para Cohere.

voyage-3 e voyage-3-lite: uma nova geração de modelos de incorporação genéricos pequenos, mas eficientes-1

 

voyage-3-lite é um modelo leve otimizado para latência e baixo custo, com recursos que incluem:

  • O desempenho médio em todos os domínios é 3,82% superior ao do OpenAI v3 large.
  • O custo é 6,5 vezes menor do que o do OpenAI v3 grande, de $0,02 por 1 milhão de tokens.
  • Ele supera o OpenAI v3 small em 7,58% pelo mesmo preço.
  • A dimensão de incorporação é 6 a 8 vezes menor (512) do que a do OpenAI (3072) e do E5 Mistral (4096), o que reduz o custo do vectorDB em 6 a 8 vezes.
  • Oferece suporte a comprimentos de contexto de 32K token, em comparação com 8K para OpenAI e 512 para Cohere.

A tabela a seguir resume aspectos importantes desses modelos e de alguns de seus concorrentes, e é acompanhada por uma representação gráfica da relação entre a qualidade da recuperação e o custo2 .

modelagem dimensão (matemática) Comprimento do contexto Custo (por milhão de tokens) Qualidade da recuperação (NDCG@10)
viagem-3 1024 32K $0.06 76.72
voyage-3-lite 512 32K $0.02 72.98
OpenAI v3 grande 3072 8K $0.13 69.17
OpenAI v3 pequeno 1536 8K $0.02 67.08
Cohere English v3 1024 512 $0.10 59.33
E5 Mistral 4096 4K $0.10 70.13
BGE M3 1024 8K $0.016 66.61

 

voyage-3 e voyage-3-lite: uma nova geração de modelos de incorporação genéricos pequenos, mas eficientes-2

 

viagem-3 responder cantando voyage-3-lite é o resultado de várias inovações de pesquisa, incluindo arquiteturas aprimoradas, destilação de modelos maiores, mais de 2 trilhões de produtos de alta qualidade e mais de 1 trilhão de produtos de alta qualidade. Token de pré-treinamento e o alinhamento dos resultados de recuperação por meio de feedback humano.

depoimentos. Qualquer usuário incorporado genérico pode atualizar para viagem-3 maior qualidade de pesquisa a um custo menor, ou optar por voyage-3-lite Mais economia de custos. Se você estiver particularmente preocupado com pesquisas de códigos, jurídicas, financeiras e multilíngues, os modelos específicos de domínio do Voyage 2 Series (código de viagem-2elei de viagem-2eviagem-financeira-2 responder cantando viagem-multilíngue-2) continuam sendo a melhor opção em seus respectivos campos, embora o viagem-3 O desempenho também é muito competitivo (consulte a seção abaixo). Se já estiver usando o Voyage Embedding, basta adicionar uma nova seção à seção API do Voyage A chamada será modelo O parâmetro é especificado como "voyage-3" talvez "voyage-3-lite"que pode ser usado para corpus e consultas.

 

Detalhes da avaliação

conjunto de dados. Avaliamos 40 conjuntos de dados de recuperação de domínio específico que abrangem oito domínios, incluindo documentos técnicos, códigos, leis, finanças, análises da Web, documentos multilíngues, longos e diálogos. Cada conjunto de dados contém um corpus a ser recuperado e um conjunto de consultas. O corpus geralmente consiste em documentos em um domínio específico, como respostas do StackExchange, opiniões de tribunais, documentos técnicos etc.; as consultas podem ser perguntas, resumos de documentos longos ou documentos individuais. A tabela abaixo lista os conjuntos de dados em oito categorias, além de multilíngue. O domínio Multilíngue abrange 62 conjuntos de dados em 26 idiomas, incluindo francês, alemão, japonês, espanhol, coreano, bengali, português e russo. Os primeiros cinco desses idiomas têm vários conjuntos de dados, enquanto os idiomas restantes contêm um conjunto de dados por idioma e estão agrupados na categoria OUTROS no gráfico de radar multilíngue abaixo.

formulário descrições conjunto de dados
habilidade documento técnico Cohere, 5G, OneSignal, LangChain, PyTorch
codificação Trechos de código, cadeias de documentos LeetCodeCpp, LeetCodeJava, LeetCodePython, HumanEval, MBPP, DS1000-apenas para referência, DS1000, apps_5doc
legislação Casos, pareceres de tribunais, códigos, patentes LeCaRDv2LegalQuADLegalSummarisationCasedocs da AILAEstatutos da AILA
financeiro Registros na SEC, controle de qualidade financeiro RAG benchmark (Apple-10K-2022), FinanceBench, TAT-QA, Finance Alpaca, FiQA Personal Finance, Stock News Sentiment, ConvFinQA, FinQA, HC3 Finance
reticulação Comentários, postagens em fóruns, páginas de políticas Huffpostsports, Huffpostscience, Doordash, Health4CA
contexto longo Longos arquivos de relatórios governamentais, trabalhos acadêmicos, diálogos, etc. NarrativaQAAgulhaChave de acessoQMSumSummScreenFDWikimQA
diálogos Anais, diálogo Soma de diálogos, QA Conv, HQA

Uma lista de todos os conjuntos de dados de avaliação pode ser encontrada na seção Essa planilha Veja em.

modelagem. Avaliamos o viagem-3 responder cantando voyage-3-litebem como uma série de modelos alternativos, incluindo: OpenAI v3 small (incorporação de texto-3-pequeno) e grande (incorporação de texto-3-grande), E5 Mistral (intfloat/e5-mistral-7b-instruct), BGE M3 (BAAI/bge-m3Cohere English v3.embed-english-v3.0) e voyage-large-2-instruct. Para conjuntos de dados multilíngues e de domínio específico, também avaliamos lei de viagem-2eviagem-financeira-2eviagem-multilíngue-2Multilíngue E5.infloat/multilingual-e5-large) e Cohere multilingual v3 (embed-multilingual-v3.0).

norma. Para a consulta, recuperamos os 10 principais documentos com base na similaridade de cosseno e relatamosGanho acumulado descontado normalizado(NDCG@10), que é um indicador padrão da qualidade da recuperação e uma variante da recuperação.

 

no final

Pesquisa entre domínios. Como mencionado anteriormente, e mostrado no primeiro gráfico de radar deste documento, oviagem-3 tem um desempenho em média 7,55% melhor do que o OpenAI v3 large em vários domínios. Além disso, conforme mostrado no gráfico de barras abaixo.viagem-3 é apenas ligeiramente inferior ao modelo específico de domínio do Voyage.

voyage-3 e voyage-3-lite: uma nova geração de modelos de incorporação de uso geral pequenos, mas eficientes-3

pesquisa multilíngue. Conforme mostrado no gráfico de radar abaixo.viagem-3 A qualidade da pesquisa multilíngue é apenas ligeiramente inferior à da viagem-multilíngue-2mas com menor latência e metade do custo.voyage-3-lite Supera todos os modelos que não são do Voyage em 4,55%, 3,13% e 3,89% em relação ao OpenAI v3 large, Cohere multilingual v3 e Multilingual E5, respectivamente.

voyage-3 e voyage-3-lite: uma nova geração de modelos de incorporação genéricos pequenos, mas eficientes-4

Todos os resultados da avaliação estão disponíveis em Essa planilha Veja em.

 

Experimente o Voyage Série 3!

Experimente agora viagem-3 responder cantando voyage-3-lite! Os primeiros 200 milhões de tokens são gratuitos. Acesse nosso Arquivo (de computador) Saiba mais. Se estiver interessado em ajustar a incorporação, gostaríamos de ouvi-lo também - entre em contato conosco em contact@voyageai.com Entre em contato conosco. Siga-nos em X (Twitter) responder cantando LinkedIne participe de nossa Discórdia para obter mais atualizações.

  1. O NDCG@10 médio do Cohere English v3 nos conjuntos de dados LAW e LONG-CONTEXT é de 33,32% e 42,48%, respectivamente. Na visualização do radargrama, arredondamos esses valores para 45%.
  2. O E5 Mistral e o BGE M3 são modelos de código aberto. Usamos $0.10 como custo do E5 Mistral, que está de acordo com o padrão do setor para modelos paramétricos 7B, e $0.016 para o BGE M3, que se baseia no custo do Fireworks.ai para modelos paramétricos 350M. preços Estimado.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " voyage-3 e voyage-3-lite: uma nova geração de modelos de incorporação de uso geral pequenos, mas eficientes

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil