AI Personal Learning
und praktische Anleitung
豆包Marscode1

voyage-3 und voyage-3-lite: eine neue Generation kleiner, aber leistungsstarker Einbettungsmodelle für allgemeine Zwecke

Abstracts - Wir freuen uns, die Einführung von voyage-3 im Gesang antworten voyage-3-lite eingebettete Modelle, die in Bezug auf Abrufqualität, Latenzzeit und Kosten neue Maßstäbe gesetzt haben.voyage-3 Durchschnittliche Leistungsverbesserung von 7,55% gegenüber OpenAI v3 large in allen Evaluierungsdomänen, einschließlich Code, Recht, Finanzen, mehrsprachige und lange Kontexte, zusammen mit einer 2,2-fachen Kostenreduzierung und einer 3-fachen Reduzierung der Einbettungsdimensionen, was zu einer 3-fachen Reduzierung der VektorDB-Kosten führt.voyage-3-lite Es verbessert die Abrufgenauigkeit um 3,82% gegenüber OpenAI v3 large, reduziert die Kosten um den Faktor 6 und verringert die Einbettungsdimensionen um den Faktor 6. Beide Modelle unterstützen eine Kontextlänge von 32K-Token, was viermal mehr ist als bei OpenAI.

 


In den letzten neun Monaten haben wir die Voyage 2-Serie von eingebetteten Modellbaukästen herausgebracht, die Funktionen wie die voyage-large-2 Solche modernen Allzweckmodelle sowie eine Reihe von bereichsspezifischen Modellen wie voyage-code-2undvoyage-law-2undvoyage-finance-2 im Gesang antworten voyage-multilingual-2Alle diese Modelle werden anhand von Daten aus ihren jeweiligen Bereichen angemessen trainiert. Zum Beispiel.voyage-multilingual-2 Hervorragende Leistung in Französisch, Deutsch, Japanisch, Spanisch und Koreanisch, sowie klassenbeste Leistung in Englisch. Wir haben das Modell auch auf spezifische Anwendungsfälle und Daten für bestimmte Organisationen abgestimmt, wie z. B. Harvey.ai des gesetzlichen Einbettungsmodells.

 

Wir freuen uns nun, die Voyage 3-Reihe mit eingebetteten Modellen vorstellen zu können, darunter voyage-3 im Gesang antworten voyage-3-liteund wird in ein paar Wochen verfügbar sein voyage-3-large. Diese Modelle übertreffen die Konkurrenz in Bezug auf die Abrufqualität und senken gleichzeitig den Preis und die Folgekosten von vectorDB erheblich. Im Einzelnen.voyage-3 Mit den folgenden Merkmalen:

  • Die Leistung war im Durchschnitt 7,55% höher als die von OpenAI v3 large in allen acht Bewertungsbereichen (Technik, Code, Web, Recht, Finanzen, Mehrsprachigkeit, Schutz und langer Kontext).
  • Kosten 2,2x weniger als OpenAI v3 large, 2,2x weniger als Cohere Englisch v3 ist 1,6 Mal niedriger pro 1 Million. Token Die Kosten betragen $0.06.
  • Einbettungsdimension als OpenAI (3072) und E5 Mistral (4096) ist 3-4 mal kleiner (1024), was die Kosten der VektorDB um den Faktor 3-4 reduziert.
  • Unterstützt 32K-Token-Kontextlängen, verglichen mit 8K bei OpenAI und 512 bei Cohere.

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型-1

 

voyage-3-lite ist ein leichtgewichtiges Modell, das für Latenzzeiten und niedrige Kosten optimiert ist und unter anderem folgende Merkmale aufweist

  • Die durchschnittliche Leistung über alle Domänen hinweg ist 3,82% höher als bei OpenAI v3 large.
  • Die Kosten sind 6,5 Mal niedriger als bei OpenAI v3 large, nämlich $0,02 pro 1 Million Token.
  • Sie übertrifft OpenAI v3 small um 7,58% zum gleichen Preis.
  • Die Einbettungsdimension ist 6-8 mal kleiner (512) als bei OpenAI (3072) und E5 Mistral (4096), was die VektorDB-Kosten um das 6-8 fache reduziert.
  • Unterstützt 32K-Token-Kontextlängen, verglichen mit 8K bei OpenAI und 512 bei Cohere.

Die folgende Tabelle fasst wichtige Aspekte dieser Modelle und einiger ihrer Konkurrenten zusammen und wird von einer grafischen Darstellung des Verhältnisses zwischen Abrufqualität und Kosten begleitet2 .

Modellierung Dimension (math.) Kontext Länge Kosten (pro Million Token) Qualität des Abrufs (NDCG@10)
reise-3 1024 32K $0.06 76.72
Reise-3-Leicht 512 32K $0.02 72.98
OpenAI v3 groß 3072 8K $0.13 69.17
OpenAI v3 klein 1536 8K $0.02 67.08
Cohere Englisch v3 1024 512 $0.10 59.33
E5 Mistral 4096 4K $0.10 70.13
BGE M3 1024 8K $0.016 66.61

 

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型-2

 

voyage-3 im Gesang antworten voyage-3-lite ist das Ergebnis einer Reihe von Forschungsinnovationen, darunter verbesserte Architekturen, Destillation aus größeren Modellen, mehr als 2 Billionen hochwertige Token des Pre-Trainings und des Abgleichs der Abfrageergebnisse durch menschliches Feedback.

Empfehlungsschreiben. Jeder generische eingebettete Benutzer kann ein Upgrade auf voyage-3 eine höhere Suchqualität zu geringen Kosten, oder sie entscheiden sich für voyage-3-lite Weitere Kosteneinsparungen. Wenn Sie sich besonders für die Suche in den Bereichen Code, Recht, Finanzen und Mehrsprachigkeit interessieren, bietet Ihnen die Voyage 2-Familie der domänenspezifischen Modelle (voyage-code-2undvoyage-law-2undvoyage-finance-2 im Gesang antworten voyage-multilingual-2) bleiben die beste Wahl in ihren jeweiligen Bereichen, auch wenn die voyage-3 Die Leistung ist ebenfalls sehr wettbewerbsfähig (siehe Abschnitt unten). Wenn Sie bereits Voyage Embedding verwenden, fügen Sie einfach einen neuen Abschnitt in der Voyage API Der Anruf wird model Der Parameter wird angegeben als "voyage-3" vielleicht "voyage-3-lite"die für Korpus und Abfragen verwendet werden können.

 

Einzelheiten der Bewertung

Datensatz. Wir evaluierten 40 domänenspezifische Retrieval-Datensätze für acht Domänen, darunter technische Dokumente, Code, Recht, Finanzen, Web-Reviews, mehrsprachige, lange Dokumente und Dialoge. Jeder Datensatz enthält ein abzufragendes Korpus und eine Reihe von Abfragen. Der Korpus besteht in der Regel aus Dokumenten in einem bestimmten Bereich, z. B. StackExchange-Antworten, Gerichtsurteile, technische Dokumente usw.; die Abfragen können Fragen, Zusammenfassungen langer Dokumente oder einzelne Dokumente sein. In der nachstehenden Tabelle sind die Datensätze in acht Kategorien zusätzlich zu mehrsprachig aufgeführt. Der Bereich Mehrsprachigkeit umfasst 62 Datensätze in 26 Sprachen, darunter Französisch, Deutsch, Japanisch, Spanisch, Koreanisch, Bengalisch, Portugiesisch und Russisch. Die ersten fünf dieser Sprachen haben mehrere Datensätze, während die übrigen Sprachen jeweils einen Datensatz pro Sprache enthalten und in der Kategorie SONSTIGE in der nachstehenden mehrsprachigen Radartabelle gruppiert sind.

Formular Beschreibungen Datensatz
Fähigkeiten technisches Dokument Cohere, 5G, OneSignal, LangChain, PyTorch
Kodierung Codeschnipsel, Dokumentenketten LeetCodeCpp, LeetCodeJava, LeetCodePython, HumanEval, MBPP, DS1000-referenceonly, DS1000, apps_5doc
Gesetzgebung Rechtssachen, Gerichtsurteile, Gesetzbücher, Patente LeCaRDv2LegalQuADLegalSummarisationAILA-CasedocsAILA-Satzung
Finanzen SEC-Berichte, Finanz-QA RAG Benchmark (Apple-10K-2022), FinanceBench, TAT-QA, Finance Alpaca, FiQA Personal Finance, Stock News Sentiment, ConvFinQA, FinQA, HC3 Finance
Vernetzungen Kommentare, Forenbeiträge, Richtlinienseiten Huffpostsports, Huffpostscience, Doordash, Health4CA
langer Kontext Lange Aktenordner mit Regierungsberichten, wissenschaftlichen Abhandlungen, Dialogen usw. NarrativeQANadelHauptschlüsselQMSumSummScreenFDWikimQA
Dialoge Tagungsband, Dialog Dialogsumme, QA Conv, HQA

Eine Liste aller Bewertungsdatensätze finden Sie in der Dieses Arbeitsblatt Ansicht in.

Modellierung. Wir bewerteten die voyage-3 im Gesang antworten voyage-3-litesowie eine Reihe von alternativen Modellen, darunter: OpenAI v3 small (text-embedding-3-small) und groß (text-embedding-3-large), E5 Mistral (intfloat/e5-mistral-7b-instruct), BGE M3 (BAAI/bge-m3Cohere English v3.embed-english-v3.0) und voyage-large-2-instruct. Für domänenspezifische und mehrsprachige Datensätze haben wir auch Folgendes bewertet voyage-law-2undvoyage-finance-2undvoyage-multilingual-2Mehrsprachig E5.infloat/multilingual-e5-large) und Cohere mehrsprachig v3 (embed-multilingual-v3.0).

Norm. Für die Abfrage werden die 10 besten Dokumente auf der Grundlage der Cosinus-Ähnlichkeit ermittelt und berichtetNormalisierter diskontierter kumulierter Gewinn(NDCG@10), einem Standardindikator für die Abrufqualität und einer Variante des Recalls.

 

am Ende

Domänenübergreifende Suche. Wie bereits erwähnt und in der ersten Radarkarte in diesem Papier dargestellt, ist dievoyage-3 schneidet im Durchschnitt 7,55% besser ab als OpenAI v3 large über mehrere Domänen hinweg. wie das Balkendiagramm unten zeigt.voyage-3 Die Leistung ist nur geringfügig niedriger als die des bereichsspezifischen Modells von Voyage.

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型-3

mehrsprachige Suche. Wie in der nachstehenden Radarkarte dargestellt.voyage-3 Die Qualität der mehrsprachigen Suche ist nur geringfügig schlechter als die der voyage-multilingual-2aber mit geringerer Latenz und der Hälfte der Kosten.voyage-3-lite Übertrifft alle Nicht-Voyage-Modelle um 4,55%, 3,13% und 3,89% gegenüber OpenAI v3 large, Cohere multilingual v3 bzw. Multilingual E5.

voyage-3 和 voyage-3-lite:新一代小而强大的通用嵌入模型-4

Alle Bewertungsergebnisse sind abrufbar unter Dieses Arbeitsblatt Ansicht in.

 

Testen Sie die Voyage 3-Serie!

Versuchen Sie es jetzt voyage-3 im Gesang antworten voyage-3-lite! Die ersten 200 Millionen Token sind kostenlos. Gehen Sie zu unserem (Computer-)Datei Erfahren Sie mehr. Wenn Sie an der Feinabstimmung der Einbettung interessiert sind, würden wir uns freuen, von Ihnen zu hören - bitte kontaktieren Sie uns unter contact@voyageai.com Kontaktieren Sie uns. Folgen Sie uns auf X (Twitter) im Gesang antworten LinkedInund treten Sie unserem Diskord für weitere Aktualisierungen.

  1. Die durchschnittliche NDCG@10 für Cohere English v3 auf den LAW- und LONG-CONTEXT-Datensätzen beträgt 33,32% bzw. 42,48%. In der Radargramm-Visualisierung haben wir diese Werte auf 45% gerundet.
  2. E5 Mistral und BGE M3 sind Open-Source-Modelle. Wir verwenden $0,10 als Kosten für E5 Mistral, was dem Industriestandard für 7B parametrische Modelle entspricht, und $0,016 für BGE M3, was auf den Kosten von Fireworks.ai für 350M parametrische Modelle basiert. Preise Geschätzt.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " voyage-3 und voyage-3-lite: eine neue Generation kleiner, aber leistungsstarker Einbettungsmodelle für allgemeine Zwecke
de_DEDeutsch