VOYAGE-3 및 VOYAGE-3-LITE: 작지만 강력한 차세대 범용 임베디드 모델

91.9K 00

초록 - 다음을 출시하게 되어 기쁘게 생각합니다. voyage-3 노래로 응답 voyage-3-lite 검색 품질, 지연 시간 및 비용 측면에서 새로운 차원에 도달한 임베디드 모델입니다.voyage-3 코드, 법률, 금융, 다국어, 긴 문맥 등 모든 평가 영역에서 OpenAI v3 대비 평균 7.55%의 성능 향상과 함께 2.2배의 비용 절감, 3배의 임베딩 차원 감소로 벡터DB 비용을 3배 절감했습니다.voyage-3-lite 검색 정확도는 OpenAI v3 large보다 3.82% 향상되고, 비용은 6배 절감되며, 임베딩 차원은 6배 감소합니다. 두 모델 모두 OpenAI보다 4배 더 긴 32K 토큰 컨텍스트 길이를 지원합니다.

지난 9개월 동안 다음과 같은 기능이 포함된 임베디드 모델 키트 Voyage 2 시리즈를 출시했습니다. voyage-large-2 이러한 최첨단 범용 모델뿐만 아니라 다음과 같은 다양한 도메인별 모델을 제공합니다. voyage-code-2및voyage-law-2및voyage-finance-2 노래로 응답 voyage-multilingual-2이러한 모든 모델은 각 도메인의 데이터에 대해 적절하게 학습됩니다. 예를 들어voyage-multilingual-2 프랑스어, 독일어, 일본어, 스페인어, 한국어는 물론 영어에서도 동급 최고의 성능을 제공합니다. 또한 다음과 같은 특정 조직의 특정 사용 사례 및 데이터에 맞게 모델을 미세 조정했습니다. Harvey.ai 의 법적 임베딩 모델입니다.

이제 다음과 같은 Voyage 3 임베디드 모델 제품군을 소개하게 되어 기쁘게 생각합니다. voyage-3 노래로 응답 voyage-3-lite몇 주 내에 제공될 예정입니다. voyage-3-large. 이러한 모델은 검색 품질 측면에서 경쟁사보다 성능이 뛰어나면서도 벡터DB의 가격과 그에 따른 비용을 크게 절감합니다. 구체적으로voyage-3 다음과 같은 특징이 있습니다:

8가지 평가 영역(기술, 코드, 웹, 법률, 금융, 다국어, 보호, 긴 컨텍스트) 모두에서 OpenAI v3 large보다 평균 7.55% 높은 성능을 보였습니다.
OpenAI v3 대형 대비 2.2배, 대형 대비 2.2배 저렴한 비용으로 Cohere 영어 v3는 100만 건당 1.6배 낮습니다. 토큰 비용은 $0.06입니다.
임베딩 차원이 OpenAI(3072) 및 E5보다 높습니다. 미스트랄 (4096)보다 3~4배 작아져(1024) 벡터DB 비용이 3~4배 감소합니다.
OpenAI의 경우 8K, Cohere의 경우 512인 것에 비해 32K 토큰 컨텍스트 길이를 지원합니다.

voyage-3-lite 는 지연 시간과 저렴한 비용에 최적화된 경량 모델로, 다음과 같은 기능을 갖추고 있습니다:

도메인 전반의 평균 성능은 OpenAI v3 large보다 3.82% 높습니다.
비용은 100만 토큰당 $0.02로 OpenAI v3 라지보다 6.5배 저렴합니다.
같은 가격에 7.58%로 OpenAI v3 소형보다 성능이 뛰어납니다.
임베딩 차원이 OpenAI(3072) 및 E5 Mistral(4096)보다 6~8배 작아(512) 벡터DB 비용을 6~8배 절감할 수 있습니다.
OpenAI의 경우 8K, Cohere의 경우 512인 것에 비해 32K 토큰 컨텍스트 길이를 지원합니다.

다음 표에는 이러한 모델과 일부 경쟁사의 중요한 측면이 요약되어 있으며, 검색 품질과 비용 간의 관계를 그래픽으로 표현한 그림이 함께 제공됩니다2 .

모델링	차원(수학)	컨텍스트 길이	비용(백만 토큰당)	검색 품질(NDCG@10)
voyage-3	1024	32K	$0.06	76.72
VOYAGE-3-LITE	512	32K	$0.02	72.98
OpenAI v3 대형	3072	8K	$0.13	69.17
OpenAI v3 소형	1536	8K	$0.02	67.08
코히어 영어 v3	1024	512	$0.10	59.33
E5 미스트랄	4096	4K	$0.10	70.13
BGE M3	1024	8K	$0.016	66.61

voyage-3 노래로 응답 voyage-3-lite 는 아키텍처 개선, 대형 모델로부터의 증류, 2 조 개 이상의 고품질 토큰 사전 교육과 사람의 피드백을 통해 검색 결과를 조정할 수 있습니다.

고객 후기. 일반 임베디드 사용자라면 누구나 voyage-3 더 낮은 비용으로 더 높은 검색 품질을 제공하거나 voyage-3-lite 추가적인 비용 절감. 특히 코드, 법률, 금융 및 다국어 검색에 관심이 있는 경우 Voyage 2 시리즈의 도메인별 모델(voyage-code-2및voyage-law-2및voyage-finance-2 노래로 응답 voyage-multilingual-2)는 여전히 각 분야에서 최고의 선택입니다. voyage-3 성능도 매우 경쟁력이 있습니다(아래 섹션 참조). 이미 Voyage 임베딩을 사용 중인 경우 새 섹션을 추가하기만 하면 됩니다. Voyage API 통화는 다음과 같이 진행됩니다. model 매개 변수는 다음과 같이 지정됩니다. "voyage-3" 어쩌면 "voyage-3-lite"를 사용하여 말뭉치 및 쿼리에 사용할 수 있습니다.

평가 세부 정보

데이터 집합. 기술 문서, 코드, 법률, 금융, 웹 리뷰, 다국어, 긴 문서, 대화 등 8개 도메인을 포괄하는 40개의 도메인별 검색 데이터셋을 대상으로 평가했습니다. 각 데이터 세트에는 검색할 코퍼스와 쿼리 세트가 포함되어 있습니다. 코퍼스는 일반적으로 StackExchange 답변, 법원 의견, 기술 문서 등과 같은 특정 도메인의 문서로 구성되며, 쿼리는 질문, 긴 문서의 요약 또는 개별 문서가 될 수 있습니다. 아래 표에는 다국어 외에 8가지 범주의 데이터 세트가 나열되어 있습니다. 다국어 도메인에는 프랑스어, 독일어, 일본어, 스페인어, 한국어, 벵골어, 포르투갈어, 러시아어 등 26개 언어로 된 62개의 데이터 세트가 포함되어 있습니다. 이 중 처음 5개 언어에는 여러 개의 데이터 세트가 있으며, 나머지 언어에는 언어당 하나의 데이터 세트가 포함되어 있으며 아래 다국어 레이더 차트에서 기타 카테고리에 그룹화되어 있습니다.

양식	설명	데이터 집합
skill	기술 문서	코히어, 5G, 원시그널, 랭체인, 파이토치
코딩	코드 스니펫, 문서 문자열	LeetCodeCpp, LeetCodeJava, LeetCodePython, HumanEval, MBPP, DS1000-referenceonly, DS1000, apps_5doc
법률	판례, 법원 의견, 코드, 특허	LeCaRDv2, LegalQuAD, 법률 요약, AILA 케이독, AILA 법령
금융	SEC 제출, 금융 QA	RAG 벤치마크 (애플-10K-2022), 금융벤치, TAT-QA, 금융 알파카, FiQA 개인 금융, 주식 뉴스 감정, ConvFinQA, FinQA, HC3 금융
망상	댓글, 포럼 게시물, 정책 페이지	허프포스트스포츠, 허프포스트사이언스, 도어대시, Health4CA
긴 컨텍스트	정부 보고서, 학술 논문, 대담 등의 긴 파일입니다.	내러티브QA, 바늘, 패스키, QMSum, SummScreenFD, WikimQA
대화	절차, 대화	다이얼로그 합계, QA 컨버팅, HQA

모든 평가 데이터 세트의 목록은 다음에서 확인할 수 있습니다. 이 스프레드시트 보기.

모델링. 저희는 voyage-3 노래로 응답 voyage-3-lite뿐만 아니라 다음과 같은 여러 대체 모델도 있습니다: OpenAI v3 소형(text-embedding-3-small) 및 대형(text-embedding-3-large), E5 미스트랄(intfloat/e5-mistral-7b-instruct), BGE M3(BAAI/bge-m3코히어 잉글리시 v3.embed-english-v3.0) 및 voyage-large-2-instruct. 도메인별 및 다국어 데이터 집합의 경우, 다음 항목도 평가했습니다. voyage-law-2및voyage-finance-2및voyage-multilingual-2다국어 E5.infloat/multilingual-e5-large) 및 Cohere 다국어 v3(embed-multilingual-v3.0).

표준. 쿼리의 경우 코사인 유사도를 기준으로 상위 10개 문서를 검색하고 다음을 보고합니다.정규화된 할인 누적 이익(NDCG@10)은 검색 품질에 대한 표준 지표이자 리콜의 변형입니다.

결국

교차 도메인 검색. 앞서 언급했듯이 이 백서의 첫 번째 레이더 차트에 표시된 것처럼voyage-3 는 여러 도메인에서 OpenAI v3보다 평균 7.55% 더 나은 성능을 발휘합니다. 또한 아래 막대 차트에서 볼 수 있듯이, 아래 막대 차트에서 볼 수 있습니다.voyage-3 성능은 Voyage의 도메인별 모델보다 약간 낮을 뿐입니다.

다국어 검색. 아래 레이더 차트에서 볼 수 있듯이.voyage-3 다국어 검색의 품질은 다음과 같이 약간 떨어집니다. voyage-multilingual-2하지만 지연 시간은 더 짧고 비용은 절반으로 줄었습니다.voyage-3-lite 모든 비보야지 모델보다 각각 4.55%, 3.13%, 3.89%로 OpenAI v3 대형, Cohere 다국어 v3 및 다국어 E5보다 성능이 뛰어납니다.

모든 평가 결과는 다음에서 확인할 수 있습니다. 이 스프레드시트 보기.

Voyage 3 시리즈를 사용해 보세요!

지금 사용해 보세요 voyage-3 노래로 응답 voyage-3-lite! 첫 2억 토큰은 무료입니다. 저희의 (컴퓨터) 파일 자세히 알아보세요. 임베딩을 미세 조정하는 데 관심이 있으시면 다음 연락처로 문의해 주세요. contact@voyageai.com 문의하기. 팔로우하기 X (트위터) 노래로 응답 LinkedIn에 가입하고 불화 에서 더 많은 업데이트를 확인하세요.

LAW 및 LONG-CONTEXT 데이터 세트에서 Cohere English v3의 평균 NDCG@10은 각각 33.32% 및 42.48%입니다. 라다그램 시각화에서는 이 값을 반올림하여 45%로 계산했습니다.
E5 Mistral과 BGE M3는 오픈 소스 모델입니다. 7B 파라메트릭 모델에 대한 업계 표준과 일치하는 $0.10을 E5 Mistral의 비용으로 사용하고, $0.016은 Fireworks.ai의 350M 파라메트릭 모델 비용에 기반한 BGE M3의 비용으로 사용했습니다. 가격 추정치.