resumos - Temos o prazer de anunciar o lançamento do viagem-3
responder cantando voyage-3-lite
modelos incorporados que alcançaram novos patamares em termos de qualidade de recuperação, latência e custo.viagem-3
Melhoria média de desempenho de 7,55% em relação ao OpenAI v3 large em todos os domínios de avaliação, incluindo código, jurídico, financeiro, multilíngue e contextos longos, juntamente com uma redução de custo de 2,2x e uma redução de 3x nas dimensões de incorporação, resultando em uma redução de 3x no custo do vectorDB.voyage-3-lite
Ele melhora a precisão da recuperação em 3,82% em relação ao OpenAI v3 large, reduz o custo em um fator de 6 e reduz a dimensionalidade da incorporação em um fator de 6. Ambos os modelos suportam o comprimento de contexto de 32K tokens, que é 4 vezes maior que o OpenAI.
Nos últimos nove meses, lançamos a série Voyage 2 de kits de modelos incorporados, que incluem recursos como voyage-large-2
Esses modelos de uso geral de última geração, bem como vários modelos específicos de domínio, como código de viagem-2
elei de viagem-2
eviagem-financeira-2
responder cantando viagem-multilíngue-2
Todos esses modelos são adequadamente treinados em dados de seus respectivos domínios. Por exemplo.viagem-multilíngue-2
Excelente desempenho em francês, alemão, japonês, espanhol e coreano, além do melhor desempenho da categoria em inglês. Também ajustamos o modelo para casos de uso específicos e dados de organizações específicas, como Harvey.ai do modelo de incorporação legal.
Agora temos o prazer de apresentar a linha Voyage 3 de modelos incorporados, incluindo viagem-3
responder cantando voyage-3-lite
e estará disponível em algumas semanas voyage-3-large
. Esses modelos superam a concorrência em termos de qualidade de recuperação e, ao mesmo tempo, reduzem significativamente o preço e o custo subsequente do vectorDB. Especificamente.viagem-3
Com as seguintes características:
- O desempenho foi, em média, 7,55% superior ao do OpenAI v3 large em todos os oito domínios de avaliação (técnico, código, web, jurídico, financeiro, multilíngue, proteção e contexto longo).
- Custa 2,2x menos que o OpenAI v3 large, 2,2x menos que o Coesão A English v3 é 1,6 vezes menor e custa $0,06 por 1 milhão de tokens.
- dimensão de incorporação do que o OpenAI (3072) e o E5 Mistral (4096) é de 3 a 4 vezes menor (1024), reduzindo o custo do vectorDB por um fator de 3 a 4.
- Oferece suporte a comprimentos de contexto de 32K token, em comparação com 8K para OpenAI e 512 para Cohere.
voyage-3-lite
é um modelo leve otimizado para latência e baixo custo, com recursos que incluem:
- O desempenho médio em todos os domínios é 3,82% superior ao do OpenAI v3 large.
- O custo é 6,5 vezes menor do que o do OpenAI v3 grande, de $0,02 por 1 milhão de tokens.
- Ele supera o OpenAI v3 small em 7,58% pelo mesmo preço.
- A dimensão de incorporação é 6 a 8 vezes menor (512) do que a do OpenAI (3072) e do E5 Mistral (4096), o que reduz o custo do vectorDB em 6 a 8 vezes.
- Oferece suporte a comprimentos de contexto de 32K token, em comparação com 8K para OpenAI e 512 para Cohere.
A tabela a seguir resume aspectos importantes desses modelos e de alguns de seus concorrentes, e é acompanhada por uma representação gráfica da relação entre a qualidade da recuperação e o custo2 .
modelagem | dimensão (matemática) | Comprimento do contexto | Custo (por milhão de tokens) | Qualidade da recuperação (NDCG@10) |
---|---|---|---|---|
viagem-3 | 1024 | 32K | $0.06 | 76.72 |
voyage-3-lite | 512 | 32K | $0.02 | 72.98 |
OpenAI v3 grande | 3072 | 8K | $0.13 | 69.17 |
OpenAI v3 pequeno | 1536 | 8K | $0.02 | 67.08 |
Cohere English v3 | 1024 | 512 | $0.10 | 59.33 |
E5 Mistral | 4096 | 4K | $0.10 | 70.13 |
BGE M3 | 1024 | 8K | $0.016 | 66.61 |
viagem-3
responder cantando voyage-3-lite
é o resultado de várias inovações de pesquisa, incluindo arquiteturas aprimoradas, destilação de modelos maiores, mais de 2 trilhões de produtos de alta qualidade e mais de 1 trilhão de produtos de alta qualidade. Token de pré-treinamento e o alinhamento dos resultados de recuperação por meio de feedback humano.
depoimentos. Qualquer usuário incorporado genérico pode atualizar para viagem-3
maior qualidade de pesquisa a um custo menor, ou optar por voyage-3-lite
Mais economia de custos. Se você estiver particularmente preocupado com pesquisas de códigos, jurídicas, financeiras e multilíngues, os modelos específicos de domínio do Voyage 2 Series (código de viagem-2
elei de viagem-2
eviagem-financeira-2
responder cantando viagem-multilíngue-2
) continuam sendo a melhor opção em seus respectivos campos, embora o viagem-3
O desempenho também é muito competitivo (consulte a seção abaixo). Se já estiver usando o Voyage Embedding, basta adicionar uma nova seção à seção API do Voyage A chamada será modelo
O parâmetro é especificado como "voyage-3"
talvez "voyage-3-lite"
que pode ser usado para corpus e consultas.
Detalhes da avaliação
conjunto de dados. Avaliamos 40 conjuntos de dados de recuperação de domínio específico que abrangem oito domínios, incluindo documentos técnicos, códigos, leis, finanças, análises da Web, documentos multilíngues, longos e diálogos. Cada conjunto de dados contém um corpus a ser recuperado e um conjunto de consultas. O corpus geralmente consiste em documentos em um domínio específico, como respostas do StackExchange, opiniões de tribunais, documentos técnicos etc.; as consultas podem ser perguntas, resumos de documentos longos ou documentos individuais. A tabela abaixo lista os conjuntos de dados em oito categorias, além de multilíngue. O domínio Multilíngue abrange 62 conjuntos de dados em 26 idiomas, incluindo francês, alemão, japonês, espanhol, coreano, bengali, português e russo. Os primeiros cinco desses idiomas têm vários conjuntos de dados, enquanto os idiomas restantes contêm um conjunto de dados por idioma e estão agrupados na categoria OUTROS no gráfico de radar multilíngue abaixo.
formulário | descrições | conjunto de dados |
---|---|---|
habilidade | documento técnico | Cohere, 5G, OneSignal, LangChain, PyTorch |
codificação | Trechos de código, cadeias de documentos | LeetCodeCpp, LeetCodeJava, LeetCodePython, HumanEval, MBPP, DS1000-apenas para referência, DS1000, apps_5doc |
legislação | Casos, pareceres de tribunais, códigos, patentes | LeCaRDv2, LegalQuAD, LegalSummarisation, Casedocs da AILA, Estatutos da AILA |
financeiro | Registros na SEC, controle de qualidade financeiro | RAG benchmark (Apple-10K-2022), FinanceBench, TAT-QA, Finance Alpaca, FiQA Personal Finance, Stock News Sentiment, ConvFinQA, FinQA, HC3 Finance |
reticulação | Comentários, postagens em fóruns, páginas de políticas | Huffpostsports, Huffpostscience, Doordash, Health4CA |
contexto longo | Longos arquivos de relatórios governamentais, trabalhos acadêmicos, diálogos, etc. | NarrativaQA, Agulha, Chave de acesso, QMSum, SummScreenFD, WikimQA |
diálogos | Anais, diálogo | Soma de diálogos, QA Conv, HQA |
Uma lista de todos os conjuntos de dados de avaliação pode ser encontrada na seção Essa planilha Veja em.
modelagem. Avaliamos o viagem-3
responder cantando voyage-3-lite
bem como uma série de modelos alternativos, incluindo: OpenAI v3 small (incorporação de texto-3-pequeno
) e grande (incorporação de texto-3-grande
), E5 Mistral (intfloat/e5-mistral-7b-instruct
), BGE M3 (BAAI/bge-m3
Cohere English v3.embed-english-v3.0
) e voyage-large-2-instruct
. Para conjuntos de dados multilíngues e de domínio específico, também avaliamos lei de viagem-2
eviagem-financeira-2
eviagem-multilíngue-2
Multilíngue E5.infloat/multilingual-e5-large
) e Cohere multilingual v3 (embed-multilingual-v3.0
).
norma. Para a consulta, recuperamos os 10 principais documentos com base na similaridade de cosseno e relatamosGanho acumulado descontado normalizado(NDCG@10), que é um indicador padrão da qualidade da recuperação e uma variante da recuperação.
no final
Pesquisa entre domínios. Como mencionado anteriormente, e mostrado no primeiro gráfico de radar deste documento, oviagem-3
tem um desempenho em média 7,55% melhor do que o OpenAI v3 large em vários domínios. Além disso, conforme mostrado no gráfico de barras abaixo.viagem-3
é apenas ligeiramente inferior ao modelo específico de domínio do Voyage.
pesquisa multilíngue. Conforme mostrado no gráfico de radar abaixo.viagem-3
A qualidade da pesquisa multilíngue é apenas ligeiramente inferior à da viagem-multilíngue-2
mas com menor latência e metade do custo.voyage-3-lite
Supera todos os modelos que não são do Voyage em 4,55%, 3,13% e 3,89% em relação ao OpenAI v3 large, Cohere multilingual v3 e Multilingual E5, respectivamente.
Todos os resultados da avaliação estão disponíveis em Essa planilha Veja em.
Experimente o Voyage Série 3!
Experimente agora viagem-3
responder cantando voyage-3-lite
! Os primeiros 200 milhões de tokens são gratuitos. Acesse nosso Arquivo (de computador) Saiba mais. Se estiver interessado em ajustar a incorporação, gostaríamos de ouvi-lo também - entre em contato conosco em contact@voyageai.com Entre em contato conosco. Siga-nos em X (Twitter) responder cantando LinkedIne participe de nossa Discórdia para obter mais atualizações.
- O NDCG@10 médio do Cohere English v3 nos conjuntos de dados LAW e LONG-CONTEXT é de 33,32% e 42,48%, respectivamente. Na visualização do radargrama, arredondamos esses valores para 45%.
- O E5 Mistral e o BGE M3 são modelos de código aberto. Usamos $0.10 como custo do E5 Mistral, que está de acordo com o padrão do setor para modelos paramétricos 7B, e $0.016 para o BGE M3, que se baseia no custo do Fireworks.ai para modelos paramétricos 350M. preços Estimado.