Die Wahl des richtigen Einbettungsmodells ist ein entscheidender Schritt beim Aufbau eines RAG-Systems. Hier sind meine Schlüsselfaktoren und Vorschläge, was bei der Wahl eines Einbettungsmodells zu beachten ist, als Referenz:
Definieren Sie Anwendungsszenarien
Zunächst sind die konkreten Anwendungsszenarien und Anforderungen an das RAG-System zu klären. Handelt es sich zum Beispiel um Textdaten, Bilddaten oder multimodale Daten? Verschiedene Datentypen können unterschiedliche Einbettungsmodelle erfordern. Für Textdaten können Sie beispielsweise die MTEB-Bestenliste von HuggingFace (Massive Text Embedding Benchmark: eine Sammlung von Bewertungsmetriken zur Messung von Texteinbettungsmodellen) heranziehen, um ein geeignetes Modell auszuwählen, oder Sie können sich die Bestenlisten der heimischen Magic Matching Community ansehen.
Allgemeine und bereichsspezifische Anforderungen
Zweitens: Wählen Sie ein Modell auf der Grundlage der Allgemeinheit oder Besonderheit der Aufgabe. Wenn die Aufgabe, die Sie implementieren möchten, eher allgemeiner Natur ist und nicht allzu viel Fachwissen erfordert, können Sie ein allgemeines Embedding-Modell wählen; wenn die Aufgabe eine spezifische Domäne betrifft (z. B. Recht, Gesundheitswesen usw., Bildung, Finanzen usw.), müssen Sie ein Modell wählen, das für diese Domäne besser geeignet ist.
Mehrsprachigkeit
Wenn der Inhalt der Wissensdatenbank in Ihrem System vorhanden ist und Sie mehrere Sprachen unterstützen müssen, können Sie mehrsprachige Einbettungsmodelle wie BAAI/bge-M3, bce_embedding (Chinesisch-Englisch) usw. wählen, die in einer mehrsprachigen Umgebung besser funktionieren. Wenn Ihre Wissensdatenbank hauptsächlich chinesische Daten enthält, können Sie Modelle wie iic/nlp_gte_sentence-embedding_chinese-base usw. wählen, die eine bessere Wirkung erzielen.
Leistungsbewertung
Schauen Sie sich Benchmarking-Frameworks wie MTEB Leaderboards an, um die Leistung verschiedener Modelle zu bewerten. Diese Leaderboards decken mehrere Sprachen und Aufgabentypen ab und können Ihnen helfen, die leistungsstärksten Modelle für bestimmte Aufgaben zu finden. Als Nächstes müssen Sie die Größe und die Ressourcenbeschränkungen des Modells berücksichtigen. Größere Modelle bieten zwar eine höhere Leistung, aber sie erhöhen auch die Rechenkosten und den Speicherbedarf. Darüber hinaus bieten größere Einbettungsdimensionen in der Regel reichhaltigere semantische Informationen, können aber auch zu höheren Rechenkosten führen. Daher muss man die Wahl auf der Grundlage der tatsächlichen Hardware-Ressourcen und Leistungsanforderungen abwägen.
Praktische Prüfung und Validierung
Schließlich können Sie, wenn möglich, 2-3 Modelle für den Effektvergleich auswählen, die Leistung der ausgewählten Modelle in realen Geschäftsszenarien testen und validieren, Metriken wie Genauigkeit und Rückruf beobachten, um die Leistung der Modelle für bestimmte Datensätze zu bewerten, und auf der Grundlage der Ergebnisse Anpassungen vornehmen.
Empfehlung eines Einbettungsmodells
Nachfolgend finden Sie 5 Mainstream-Embedding-Modelle, die für den Aufbau von RAG-Systemen als Referenz empfohlen werden:
BGE-EinbettungEntwickelt vom Wisdom Source Institute, unterstützt es mehrere Sprachen und bietet mehrere Versionen, darunter den effizienten Reranker. Das Modell ist quelloffen und frei lizenziert und eignet sich für Aufgaben wie Retrieval, Klassifizierung und Clustering.
GTE Embedding: wurde vom Alibaba Dharma Institute eingeführt und basiert auf dem BERT-Framework. Es ist für Szenarien wie Information Retrieval und semantische Ähnlichkeitsbeurteilung mit ausgezeichneter Leistung anwendbar.
Jina Embedding: wurde vom Finetuner-Team von Jina AI entwickelt und auf dem Linnaeus-Clean-Datensatz trainiert. Es eignet sich für Information Retrieval und semantische Ähnlichkeitsbeurteilung mit hervorragender Leistung.
Conan-Embedding: Dies ist ein für Chinesisch optimiertes Embedding-Modell, das das SOTA-Niveau (State-of-the-Art) auf C-MTEB erreicht und sich besonders für RAG-Systeme eignet, die eine hochpräzise semantische Darstellung von Chinesisch erfordern.
text-embedding-ada-002: Das vom Xenova-Team entwickelte Programm ist mit der Hugging Face-Bibliothek kompatibel und bietet qualitativ hochwertige Textvektordarstellungen für eine breite Palette von NLP-Aufgaben.
Natürlich gibt es auch Sentence-BERT, E5-embedding, Instructor und so weiter, die Leistung dieser Modelle in verschiedenen Szenarien wird ein wenig anders sein, je nach Ihren spezifischen Bedürfnissen und den Überlegungen, die ich oben aufgeführt habe, können Sie das richtige Modell wählen, um ein RAG-System zu bauen.