Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Allgemeine Einführung

Llama OCR ist eine OCR-Bibliothek (Optical Character Recognition), die auf Llama 3.2 Vision basiert und Dokumente in das Markdown-Format konvertiert. Die Bibliothek wurde von Nutlope entwickelt und verwendet die Gemeinsam Die kostenlose Schnittstelle Llama 3.2 von AI analysiert Bilder und gibt Markdown-Text zurück. Llama OCR unterstützt OCR von lokalen und entfernten Bildern, für die Zukunft ist Unterstützung für OCR von PDF-Dateien geplant. npm installiert die Bibliothek und macht es einfach, ihre Funktionalität in Projekten aufzurufen.

Referenzobjekte: Zerox

Llama OCR: OCR-Bibliothek zur Konvertierung von Dokumenten in Markdown unter Verwendung der kostenlosen Llama 3.2 Vision-Schnittstelle-1

Demo: https://llamaocr.com/

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet-1

Setzen Sie auf die kostenlose Schnittstelle zu Meta Llama Vision von together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

Weitere kostenlose visuelle Modelle:Smart Spectrum offene Plattform, die erste kostenlose multimodale Vision Modell GLM-4V-Flash auf Linie, unbegrenzte Nutzung!

Funktionsliste

Bild OCRUnterstützt die optische Zeichenerkennung von lokalen und entfernten Bildern.
Markdown-AusgabeKonvertiert erkannten Text in das Markdown-Format.
Unterstützung mehrerer ModelleLlama 3.2: Es gibt kostenlose und kostenpflichtige Llama 3.2-Modellschnittstellen, die unterschiedliche Leistungsanforderungen erfüllen.
API-EinbindungBildanalyse über die API von Together AI.
zukünftige FunktionenDas Programm unterstützt die OCR-Verarbeitung von ein- und mehrseitigen PDF-Dateien sowie die Ausgabe im JSON-Format.

Hilfe verwenden

Ablauf der Installation

Stellen Sie sicher, dass die Node.js-Umgebung installiert ist.
Installieren Sie die Llama OCR-Bibliothek mit npm:

   npm i llama-ocr

Verwendung

Importieren Sie die Llama OCR-Bibliothek:

   importiere { ocr } von "llama-ocr".

Aufforderungen ocr Funktion für das Parsen von Bildern:

   const markdown = await ocr({
filePath: ". /trader-joes-receipt.jpg", // Pfad der Bilddatei
apiKey: process.env.TOGETHER_API_KEY, // Together AI API Schlüssel
});

Verarbeitet den zurückgegebenen Markdown-Text:

   console.log(markdown);

Detaillierte Funktionsweise

Bild OCR: übergibt den Pfad der Bilddatei an den ocr können Sie den Textinhalt des Bildes abrufen.
Markdown-AusgabeDer geparste Text wird automatisch in das Markdown-Format konvertiert, um ihn in Dokumenten verwenden zu können.
Unterstützung mehrerer Modelle: Durch die Einstellung der Modell Parameter können verschiedene Llama 3.2 Modelle ausgewählt werden (z.B. Llama-3.2-90B-Vision vielleicht Llama-3.2-11B-Vision), um unterschiedliche Leistungsanforderungen zu erfüllen.
API-EinbindungDer API-Schlüssel von Together AI muss in einer Umgebungsvariablen gesetzt werden, um die Schnittstelle für das Parsen von Bildern aufzurufen.

Beispielcode (Rechnen)

importiere { ocr } von "llama-ocr".
async function runOCR() {
const markdown = await ocr({
filePath: ". /example-image.jpg",
apiKey: "ihr-zusammen-ai-api-key",
});
console.log(markdown);
}
runOCR();

zukünftige Funktionen

PDF-UnterstützungZukünftige Versionen werden OCR von ein- und mehrseitigen PDF-Dateien unterstützen.
JSON-AusgabeZusätzlich zum Markdown-Format wird die JSON-Ausgabe für eine einfache Datenverarbeitung und -integration unterstützt.

Mit den oben genannten Schritten können Benutzer die Llama OCR-Bibliothek einfach installieren und verwenden, um Textinhalte in Bildern in das Markdown-Format zu konvertieren und so die Effizienz der Dokumentenverarbeitung zu verbessern.

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Ablauf der Installation

Verwendung

Detaillierte Funktionsweise

Beispielcode (Rechnen)

zukünftige Funktionen

Ähnliche Artikel

Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama

Raycast-G4F: Kostenloser Zugang zu GPT-4, Llama-3 und vielen anderen AI-Modellen über Raycast!

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

Docling: Unterstützung für eine Vielzahl von Formaten, Dokumentenparsing und Export als Markdown und JSON, PDF-Unterstützung OCR

PaddleOCR: Eine mehrsprachige OCR-Werkzeugbibliothek auf der Grundlage von Flying Paddle, die die Erkennung von mehr als 80 Sprachen unterstützt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Neuerscheinungen

Beliebte Artikel

Heiße Tags.

Chef-KI-Austauschkreis