AI Engineering Academy: 2.2 Grundlegende RAG-Implementierung

AI-WissensdatenbankAktualisiert vor 8 Monaten AI-Austauschkreis

(jemandem eine Stelle etc.) anbieten

Suche - Erweiterte Generierung (RAG) ist eine leistungsstarke Technik, die die Vorteile großer Sprachmodelle mit der Fähigkeit kombiniert, relevante Informationen aus einer Wissensbasis abzurufen. Dieser Ansatz verbessert die Qualität und Genauigkeit der generierten Antworten, indem er auf spezifischen abgerufenen Informationen basiert.a Dieses Notizbuch soll eine klare und prägnante Einführung in RAG bieten und ist für Anfänger geeignet, die diese Technik verstehen und implementieren möchten.

RAG-Prozess

Eröffnungsfeier

Notebook

Sie können das in diesem Repository enthaltene Notebook ausführen. https://github.com/adithya-s-k/AI-Engineering.academy/tree/main/RAG/01_Basic_RAG

Chat-Anwendung

Abhängigkeiten installieren:
```
pip install -r requirements.txt
```
Führen Sie die Anwendung aus:
```
python app.py
```

Dynamischer Import von Daten:

python app.py --ingest --data_dir /path/to/documents

Server (Computer)

Verwenden Sie den folgenden Befehl, um den Server zu starten:

python server.py

Der Server bietet zwei Endpunkte:

/api/ingest
/api/query

Lokomotive

Traditionelle Sprachmodelle generieren Text auf der Grundlage von Mustern, die aus Trainingsdaten gelernt wurden. RAG behebt diese Einschränkung durch die Einführung eines Retrieval-Schrittes, der das Sprachmodell mit relevantem Kontext versorgt, um genauere Antworten zu generieren.

Methodische Einzelheiten

Vorverarbeitung von Dokumenten und Erstellung von Vektorspeichern

Chunking von DokumentenVorverarbeitung und Aufteilung von Dokumenten der Wissensdatenbank (z.B. PDFs, Artikel) in überschaubare Teile (Chunks). So entsteht ein durchsuchbarer Korpus für effiziente Suchprozesse.
Einbettung generierenJeder Block wird in eine Vektordarstellung umgewandelt, wobei eine zuvor trainierte Einbettung (z. B. die Einbettung von OpenAI) verwendet wird. Diese Dokumente werden dann in einer Vektordatenbank (z. B. Qdrant) für eine effiziente Ähnlichkeitssuche gespeichert.

Retrieval Augmentation Generation (RAG) Arbeitsablauf

Anfrage Eingabe:: Benutzer stellen Fragen, die beantwortet werden müssen.
SuchschrittEinbettung der Abfrage als Vektor unter Verwendung des gleichen Einbettungsmodells wie die Dokumente. Dann wird eine Ähnlichkeitssuche in der Vektordatenbank durchgeführt, um den relevantesten Block von Dokumenten zu finden.
Schritte zur Erzeugung:: Die abgerufenen Dokumentabschnitte werden als zusätzlicher Kontext an ein großes Sprachmodell (z. B. GPT-4) weitergegeben. Das Modell verwendet diesen Kontext, um genauere und relevantere Antworten zu generieren.

Hauptmerkmale des RAG

kontextuelle RelevanzRAG-Modell: Durch die Generierung von Antworten auf der Grundlage der tatsächlich abgerufenen Informationen kann das RAG-Modell kontextbezogenere und genauere Antworten geben.
SkalierbarkeitDer Abrufschritt kann erweitert werden, um große Wissensdatenbanken zu verarbeiten, so dass das Modell Inhalte aus riesigen Informationsmengen extrahieren kann.
Flexibilität im AnwendungsfallRAG kann an eine Vielzahl von Anwendungsszenarien angepasst werden, einschließlich Fragen und Antworten, Erstellung von Zusammenfassungen, Empfehlungssysteme und vieles mehr.
Verbesserte Genauigkeit:: Die Kombination von Abruf und Generierung führt häufig zu genaueren Ergebnissen, insbesondere bei Abfragen, die spezifische oder kalte Informationen erfordern.

Vorteile dieser Methode

Kombination der Vorteile von Abruf und ErzeugungRAG verbindet effektiv einen Retrieval-basierten Ansatz mit einem generativen Modell, um sowohl genaue Fakten zu finden als auch natürliche Sprache zu generieren.
Verbesserte Behandlung von Long-Tail-AnfragenDie Methode eignet sich besonders gut für Abfragen, die spezifische und ungewöhnliche Informationen erfordern.
Anpassung der BereicheAbrufmechanismen können auf bestimmte Bereiche abgestimmt werden, um sicherzustellen, dass die erzeugten Antworten auf den relevantesten und genauesten bereichsspezifischen Informationen beruhen.

zu einem Urteil gelangen

Retrieval-Augmented Generation (RAG) ist eine innovative Verschmelzung von Retrieval- und Generierungstechnologien, die die Fähigkeiten eines Sprachmodells effektiv erweitert, indem sie die Ausgabe auf relevante externe Informationen stützt. Dieser Ansatz ist besonders wertvoll in Antwortszenarien, die genaue und kontextbezogene Antworten erfordern (z. B. Kundensupport, wissenschaftliche Forschung usw.). Im Zuge der Weiterentwicklung der KI zeichnet sich RAG durch sein Potenzial aus, zuverlässigere und kontextsensitivere KI-Systeme zu entwickeln.

Vorbedingungen

Bevorzugt Python 3.11
Jupyter Notebook oder JupyterLab
LLM-API-Schlüssel
- Jeder LLM kann verwendet werden. In diesem Notebook verwenden wir OpenAI und GPT-4o-mini.

Mit diesen Schritten können Sie ein grundlegendes RAG-System implementieren, das reale, aktuelle Informationen einbezieht, um die Effizienz von Sprachmodellen in einer Vielzahl von Anwendungen zu verbessern.