Generative KI und Big-Language-Modelling (LLM) verändern die Industrie, aber zwei zentrale Herausforderungen können die Einführung in Unternehmen behindern: Desillusionierung (Erzeugung falscher oder bedeutungsloser Informationen) und begrenztes Wissen über die Trainingsdaten hinaus. Retrieval-unterstützte Generierung (RAG) und Erdung bieten Lösungen, indem sie LLMs mit externen Datenquellen verbinden, so dass sie auf aktuelle Informationen zugreifen und authentischere und relevantere Antworten geben können.
Dieses Papier untersucht die Vertex AI RAG Engine und wie sie Software- und KI-Entwicklern helfen kann, robuste, faktenbasierte generative KI-Anwendungen zu erstellen.
Was ist RAG und warum brauchen Sie es?
Die RAG ruft relevante Informationen aus der Wissensbasis ab und stellt sie dem LLM zur Verfügung, so dass dieser genauere und fundiertere Antworten geben kann. Dies steht im Gegensatz zum alleinigen Verlassen auf das vortrainierte Wissen des LLM, das veraltet oder unvollständig sein kann.RAG ist entscheidend für den Aufbau von generativen KI-Anwendungen auf Unternehmensebene, die die folgenden Fähigkeiten erfordern:
- Genauigkeit: Minimieren Sie Halluzinationen und sorgen Sie dafür, dass die Antworten auf Fakten beruhen.
- Aktualisierung: Zugriff auf die neuesten Daten und Erkenntnisse.
- Fachliche Kompetenz: Nutzung einer spezialisierten Wissensbasis für bestimmte Anwendungsfälle.
RAG vs. Erdung vs. Suche
- RAG: Eine Technik, um relevante Informationen abzurufen und sie dem LLM zur Verfügung zu stellen, um eine Antwort zu generieren. Diese Informationen können neue Informationen, Themen und Kontext oder faktische Grundlagen beinhalten.
- Erdung: Sicherstellung der Zuverlässigkeit und Vertrauenswürdigkeit von KI-generierten Inhalten durch Verankerung in überprüften Quellen, wobei RAG als Technik eingesetzt werden kann.
- Suche: Eine Methode zum schnellen Auffinden und Bereitstellen relevanter Informationen aus Datenquellen auf der Grundlage von Text- oder multimodalen Abfragen, die von fortschrittlichen KI-Modellen gesteuert werden.
Einführung in die Vertex AI RAG Engine
Die Vertex AI RAG Engine ist ein gehosteter Orchestrierungsdienst, der den komplexen Prozess des Abrufs relevanter Informationen und ihrer Bereitstellung für LLMs vereinfacht. So können sich Entwickler auf die Entwicklung ihrer Anwendungen konzentrieren, anstatt die Infrastruktur zu verwalten.
Die wichtigsten Vorteile der Vertex AI RAG Engine:
- Einfach zu bedienen: Schneller Einstieg mit einer einfachen API für schnelles Prototyping und Experimentieren.
- Gastgeber Choreographie: Durch die Bewältigung der Komplexität des Datenabrufs und der LLM-Integration entfällt die Notwendigkeit für Entwickler, die Infrastruktur zu verwalten.
- Individuelle Anpassung und Open-Source-Unterstützung: Wählen Sie aus einer Vielzahl von Parsing-, Chunking-, Annotation-, Embedding-, Vektorspeicher- und Open-Source-Modellen, oder passen Sie Ihre eigenen Komponenten an.
- Hochwertige Google-Komponenten: Nutzen Sie die hochmoderne Technologie von Google für eine optimale Leistung.
- Flexibilität bei der Integration: Stellen Sie eine Verbindung zu verschiedenen Vektordatenbanken wie Pinecone und Weaviate her, oder verwenden Sie die Vertex AI Vector Search.
Vertex AI RAG: eine Reihe von Lösungen
Google Cloud bietet eine Reihe von RAG- und Erdungslösungen für unterschiedliche Komplexitätsgrade und Anpassungen:
- Vertex AI Search: Eine vollständig verwaltete Suchmaschine und Retriever-API, die sich ideal für komplexe Unternehmensanwendungen eignet, die eine hohe Qualität, Skalierbarkeit und eine fein abgestufte Zugriffskontrolle erfordern. Sie vereinfacht die Konnektivität zu einer Vielzahl von Unternehmensdatenquellen und unterstützt die Suche über mehrere Quellen hinweg.
- Totale DIY RAG: Für Entwickler, die eine vollständige Kontrolle wünschen, bietet Vertex AI separate Komponenten-APIs (z. B. Text Embedding API, Ranking API, Grounding on Vertex AI), um eigene RAG-Pipelines zu erstellen. Dieser Ansatz bietet die größte Flexibilität, erfordert aber einen erheblichen Entwicklungsaufwand. Verwenden Sie diesen Ansatz, wenn Sie sehr spezifische Anpassungen benötigen oder sich in ein bestehendes RAG-Framework integrieren möchten.
- Vertex AI RAG-Engine: Es ist ideal für Entwickler, die ein Gleichgewicht zwischen Benutzerfreundlichkeit und Anpassungsfähigkeit suchen. Sie ermöglicht ein schnelles Prototyping und eine schnelle Entwicklung, ohne dass die Flexibilität darunter leidet.
Häufige Anwendungsfälle in der Industrie für RAG-Engines:
1) Finanzdienstleistungen: persönliche Anlageberatung und Risikobewertung:
Problem: Finanzberater müssen schnell große Mengen an Informationen (einschließlich Kundenprofilen, Marktdaten, aufsichtsrechtlichen Unterlagen und internen Recherchen) konsolidieren, um eine maßgeschneiderte Anlageberatung und genaue Risikobewertungen zu ermöglichen. Die manuelle Durchsicht all dieser Informationen ist zeitaufwändig und fehleranfällig.
RAG-Engine-Lösung: Die RAG-Engine nimmt relevante Datenquellen auf und indexiert sie. Die RAG-Engine liefert prägnante, evidenzbasierte Antworten und extrahiert Informationen aus relevanten Dokumenten, einschließlich Zitaten, um Empfehlungen zu unterstützen. Dies verbessert die Effizienz des Beraters, verringert das Risiko menschlicher Fehler und erhöht den Grad der Personalisierung der Beratung. Das System kann auch potenzielle Interessenkonflikte oder Verstöße gegen aufsichtsrechtliche Vorschriften auf der Grundlage der in den eingegebenen Daten gefundenen Informationen anzeigen.
2) Gesundheitswesen: Beschleunigte Arzneimittelforschung und personalisierte Behandlungsprogramme:
Problem: Die Entdeckung von Arzneimitteln und die personalisierte Medizin stützen sich in hohem Maße auf die Analyse großer Datensätze aus klinischen Studien, Forschungsarbeiten, Patientenakten und genetischen Informationen. Diese Daten zu sichten, um potenzielle Angriffspunkte für Medikamente zu identifizieren, das Ansprechen eines Patienten auf eine Behandlung vorherzusagen oder einen personalisierten Behandlungsplan zu erstellen, ist eine große Herausforderung.
RAG-Engine-Lösung: Mit geeigneten Datenschutz- und Sicherheitsmaßnahmen kann eine RAG-Engine große Mengen an biomedizinischer Literatur und Patientendaten aufnehmen und indexieren. Forscher können dann komplexe Abfragen stellen, wie z. B. "Welche möglichen Nebenwirkungen hat das Medikament X bei einem Patienten mit dem Genotyp Y?" Die RAG-Maschine fasst relevante Informationen aus einer Vielzahl von Quellen zusammen und liefert den Forschern Erkenntnisse, die sie bei ihrer manuellen Suche möglicherweise übersehen haben. Für Kliniker kann die Maschine dabei helfen, personalisierte Behandlungspläne zu erstellen, die auf den individuellen Merkmalen und der Krankengeschichte eines Patienten basieren und durch einschlägige Forschungsergebnisse unterstützt werden.
3) Rechtsabteilung: Verbesserung der Due-Diligence-Prüfung und der Vertragsprüfung:
Problem: Rechtsexperten verbringen viel Zeit mit der Prüfung von Dokumenten im Rahmen von Due-Diligence-Prüfungen, Vertragsverhandlungen und Rechtsstreitigkeiten. Das Auffinden relevanter Klauseln, die Identifizierung potenzieller Risiken und die Sicherstellung der Einhaltung gesetzlicher Vorschriften ist zeitaufwändig und erfordert fundiertes Fachwissen.
RAG-Engine-Lösung: Die RAG-Engine erfasst und indiziert juristische Dokumente, Rechtsprechung und regulatorische Informationen. Juristen können das System abfragen, um bestimmte Klauseln in Verträgen zu finden, potenzielle rechtliche Risiken zu ermitteln und relevante Präzedenzfälle zu recherchieren. Die Engine hebt Unstimmigkeiten, potenzielle Verbindlichkeiten und relevante Rechtsprechung hervor, was den Überprüfungsprozess erheblich beschleunigt und die Genauigkeit verbessert. Dies trägt dazu bei, den Abschluss von Transaktionen zu beschleunigen, rechtliche Risiken zu verringern und juristisches Fachwissen effektiver zu nutzen.
Erste Schritte mit der Vertex AI RAG Engine
Google bietet eine Reihe von Ressourcen, die Ihnen den Einstieg erleichtern:
- Notizbuch "Erste Schritte":
- Dokumentation: Eine ausführliche Dokumentation führt Sie durch die Einrichtung und Nutzung der RAG Engine.
- Integration: Beispiele mit Vertex AI Vector Search, Vertex AI Function Store, Pinecone und Weaviate
- https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/rag-engine/rag_engine_vector_search.ipynb
- https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/rag-engine/rag_engine_feature_store.ipynb
- https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/rag-engine/rag_engine_pinecone.ipynb
- https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/rag-engine/rag_engine_weaviate.ipynb
- Bewertungsrahmen: Lernen Sie, wie Sie die RAG-Engine zur Auswertung von Suchvorgängen und zur Abstimmung von Hyperparametern verwenden können:
Aufbau faktenbasierter generativer KI
Die RAG-Engine von Vertex AI und eine Reihe von Basislösungen ermöglichen es Entwicklern, zuverlässigere, authentischere und aufschlussreichere generative KI-Anwendungen zu erstellen. Durch die Nutzung dieser Tools können Sie das volle Potenzial von LLM freisetzen und die Herausforderungen der Desillusionierung und des begrenzten Wissens überwinden und so den Weg für eine breitere Akzeptanz von generativer KI im Unternehmen ebnen. Wählen Sie die Lösung, die am besten zu Ihren Anforderungen passt, und beginnen Sie mit der Entwicklung der nächsten Generation intelligenter Anwendungen.