AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

Morphik Core: eine Open-Source-RAG-Plattform für die Verarbeitung multimodaler Daten

Allgemeine Einführung

Morphik Core ist ein Open-Source-Projekt, das vom morphik-org-Team entwickelt und auf GitHub gehostet wird. Dieses Tool ist eine Datenbank, die für KI-Anwendungen entwickelt wurde und eine Vielzahl von Daten wie Text, Bilder, PDFs, Videos usw. verarbeiten kann. Es bietet leistungsstarke RAG-Funktionen (Retrieval Augmented Generation), mit denen Benutzer schnell Informationen abrufen und generieren können. Morphik Core bietet leistungsstarke RAG-Funktionen (Retrieval Augmented Generation), mit denen Benutzer schnell Informationen abrufen und generieren können. Morphik Core unterstützt die Verarbeitung großer Datenmengen und kann Millionen von Dokumenten verwalten, während die Abfrage schnell bleibt. Ganz gleich, ob Sie eine neue Idee ausprobieren oder eine Produktionsumgebung aufbauen möchten, es bietet Unterstützung. Morphik Core befindet sich derzeit in der Entwicklung und plant die Einführung eines gehosteten Dienstes, bei dem sich die Nutzer in eine Warteliste eintragen können.

Morphik Core: eine quelloffene RAG-Plattform zur Verarbeitung multimodaler Daten-1


 

Funktionsliste

  • Unterstützung für multimodale Daten: kann Text, PDF, Bilder, Video und andere Formate verarbeiten.
  • Intelligentes Parsing von Dateien: zerlegt Dateien automatisch in kleinere Teile und erzeugt Einbettungen.
  • ColPali multimodale Einbettung: Kombination von Text- und Bildinhalten für effizientes Retrieval.
  • Wissensgraphenunterstützung: Automatisches Extrahieren von Entitäten und Beziehungen zur Verbesserung der Suchergebnisse.
  • Regeln der natürlichen Sprache: Festlegung von Regeln für unübersichtliche Daten zur Extraktion strukturierter Informationen.
  • Effiziente Zwischenspeicherung: Vorverarbeitung von Daten zur Senkung der Rechenkosten und Beschleunigung der Antwortzeiten.
  • Erweiterbare Architektur: Unterstützung von benutzerdefinierten Parsern und mehreren Speichermethoden.
  • MCP Protokolle: erleichtern den Wissensaustausch mit KI-Systemen.

 

Hilfe verwenden

Morphik Core ist ein Werkzeug für Entwickler, um den Code zu erhalten und ihn hauptsächlich über GitHub zu verwenden. Nachfolgend finden Sie eine ausführliche Anleitung zur Installation und Bedienung, damit Sie schnell loslegen können.

Einbauverfahren

Um mit Morphik Core zu beginnen, müssen Sie den Code von GitHub herunterladen und Ihre Umgebung konfigurieren. Die Schritte sind wie folgt:

  1. Klon-Lager
    Geben Sie den Befehl in das Terminal ein, um das Projekt herunterzuladen:
git clone https://github.com/morphik-org/morphik-core.git

Wechseln Sie dann in das Projektverzeichnis:

cd morphik-core
  1. Erstellen einer virtuellen Umgebung
    Erstellen Sie eine eigenständige Umgebung mit Python 3.12, um Abhängigkeitskonflikte zu vermeiden:
python3.12 -m venv .venv

Aktivieren Sie die Umwelt:

  • Linux/macOS:
    source .venv/bin/activate
    
  • Fenster:
    .venv\Scripts\activate
    
  1. Installation von Abhängigkeiten
    Die Projekte sind requirements.txt Datei, um die erforderlichen Pakete zu installieren:
pip install -r requirements.txt

Wenn Sie Dateien vermissen, überprüfen Sie das GitHub README für die neuesten Abhängigkeiten.

  1. Neue Dienste
    Konfigurieren Sie den Server und starten Sie ihn:
python quick_setup.py
python start_server.py

Nach Abschluss der Arbeiten wird der Dienst localhost:8000 Laufen.

Hauptfunktionen

Das Herzstück von Morphik Core ist die Fähigkeit zur Verarbeitung multimodaler Daten und zur Bereitstellung von RAG Funktion. So wird es gemacht:

1. der Import von Daten

Sie können mit dem Python-SDK Text oder Dateien importieren. Importieren Sie zum Beispiel ein Stück Text:

from databridge import DataBridge
db = DataBridge("databridge://localhost:8000")
doc = db.ingest_text("这是关于AI技术的示例文档。", metadata={"category": "tech"})
  • BetriebsanleitungNach der Verbindung mit dem Server importieren Sie den Text und fügen Metadaten hinzu.
  • am EndeDer Text wird verarbeitet und zum Abruf gespeichert.

PDF-Dateien importieren:

doc = db.ingest_file("path/to/document.pdf", metadata={"category": "research"})
  • FunktionalitätUnterstützung für PDF, Video und andere Formate mit automatischer Inhaltsanalyse.

2. multimodale Suche (ColPali)

Morphik Core verwendet ColPali, um Dokumente mit Bildern zu verarbeiten. Beispiel:

doc = db.ingest_file("report_with_charts.pdf", use_colpali=True)
chunks = db.retrieve_chunks("显示第二季度收入图表", use_colpali=True, k=3)
  • umziehenColPali: Aktiviert ColPali beim Importieren von Dateien und gibt beim Abrufen Text und Bilder zurück.
  • WirkungSie können den Inhalt einer Grafik oder eines Bildes direkt finden.

3. die Festlegung von Regeln

Regeln können in natürlicher Sprache definiert werden, um Informationen zu extrahieren:

rules = [
{"type": "metadata_extraction", "schema": {"title": "string", "author": "string"}},
{"type": "natural_language", "prompt": "删除所有个人信息"}
]
doc = db.ingest_file("document.pdf", rules=rules)
  • entspricht Englisch -ity, -ism, -izationExtrahieren von Titeln und Autoren aus Dateien oder Bereinigen von Daten bei Bedarf.
  • AnregungDie Regeln müssen an den Inhalt des Dokuments angepasst werden.

4. die Kartierung von Wissen

Erstellung und Verwendung von Wissensgraphen zur Verbesserung der Abfrage:

db.create_graph("tech_graph", filters={"category": "tech"})
response = db.query("AI如何与云计算相关?", graph_name="tech_graph", hop_depth=2)
  • RiggNach der Erstellung einer Karte gibt die Abfrage die zugehörigen Informationen zurück.
  • SchneidkanteDie Ergebnisse sind präziser und für komplexe Probleme geeignet.

5. die Stapelverarbeitung

Unterstützt den Stapelimport von Dateien in Ordnern:

docs = db.ingest_directory("data/documents", recursive=True, pattern="*.pdf")
  • Funktionalität: Rekursives Scannen des Katalogs und Importieren aller PDFs.
  • Nehmen SieGeeignet für die Verarbeitung großer Datenmengen.

Featured Function Bedienung

Die Highlights von Morphik Core sind multimodale Unterstützung und Effizienz. Hier ist eine detaillierte Beschreibung:

ColPali multimodale Einbettung

ColPali lässt Text und Bilder zusammenarbeiten. Zum Beispiel:

db.ingest_file("report.pdf", use_colpali=True)
chunks = db.retrieve_chunks("查找2024年的销售数据图", use_colpali=True)
  • WirkungText: Gibt nicht nur Text zurück, sondern findet auch Diagramme.
  • verwenden.Analyse von Dokumenten mit visuellem Inhalt.

Effiziente Zwischenspeicherung

Vorverarbeitung von Daten zum schnelleren Abruf:

db.cache_documents(filters={"category": "research"})
chunks = db.retrieve_chunks("AI最新进展", k=5)
  • KilometerstandKürzere Reaktionszeiten und geringere Rechenkosten 80%.
  • zur Kenntnis nehmenCache: Der Cache benötigt Platz und wird regelmäßig geleert.

Skalierbarkeit

Verbindung zu Datenbanken und Verarbeitung umfangreicher Daten:

db.connect_storage("postgresql://user:password@localhost:5432/dbname")
docs = db.ingest_directory("large_data")
  • etw. unterstützenVerwalten Sie Millionen von Dokumenten mit PostgreSQL oder MongoDB.
  • TempoDie Abrufzeiten bleiben im Sekundenbereich.

caveat

  • Bevor Sie es zum ersten Mal verwenden, lesen Sie die GitHub-Anleitung README.md und offizielle Unterlagen.
  • Vergewissern Sie sich, dass die Python-Version 3.12 ist und dass die Abhängigkeiten korrekt installiert sind.
  • Fragen können als Probleme auf Discord (https://discord.gg/BwMtv3Zaju) oder GitHub eingereicht werden.

Mit diesen Schritten können Sie Morphik Core leicht installieren und verwenden, um eine Vielzahl von Datenanforderungen zu erfüllen.

 

Anwendungsszenario

  1. Forschungspapier Management
    Der Forscher importiert die PDF-Datei des Papiers, extrahiert den Titel und die Zusammenfassung anhand von Regeln, erstellt einen Wissensgraphen und findet schnell verwandte Forschungsergebnisse.
  2. Analyse von Unternehmensdaten
    Das Unternehmen verarbeitet Berichte und Verträge, ruft mit ColPali Diagramme und Texte ab und speichert Daten im Cache, um die Effizienz zu steigern.
  3. Zusammenstellung von Bildungsressourcen
    Lehrer importieren Lehrbücher und Videos, legen Regeln fest, um wichtige Punkte zu extrahieren, und Schüler können Kursinhalte nachschlagen.

 

QA

  1. Erhebt Morphik Core eine Gebühr?
    Es ist ein kostenloses Open-Source-Projekt, das unter der MIT-Lizenz steht und frei verwendet werden kann.
  2. Sie brauchen einen Server?
    Ja, für das Self-Hosting ist ein lokal betriebener Server erforderlich, und in Zukunft wird es auch Cloud-Hosting-Optionen geben.
  3. Unterstützt es Video?
    Unterstützung beim Parsen von Videos und Extrahieren von Text und Inhalt.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Morphik Core: eine Open-Source-RAG-Plattform für die Verarbeitung multimodaler Daten
de_DEDeutsch