AI Personal Learning
und praktische Anleitung

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Allgemeine Einführung

Llama OCR ist eine OCR-Bibliothek (Optical Character Recognition), die auf Llama 3.2 Vision basiert und Dokumente in das Markdown-Format konvertiert. Die Bibliothek wurde von Nutlope entwickelt und verwendet die Gemeinsam Die kostenlose Schnittstelle Llama 3.2 von AI analysiert Bilder und gibt Markdown-Text zurück. Llama OCR unterstützt OCR von lokalen und entfernten Bildern, für die Zukunft ist Unterstützung für OCR von PDF-Dateien geplant. npm installiert die Bibliothek und macht es einfach, ihre Funktionalität in Projekten aufzurufen.

Referenzobjekte: Zerox


Llama OCR: OCR-Bibliothek zur Konvertierung von Dokumenten in Markdown unter Verwendung der kostenlosen Llama 3.2 Vision-Schnittstelle-1

Demo: https://llamaocr.com/

 

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet-1

Setzen Sie auf die kostenlose Schnittstelle zu Meta Llama Vision von together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

 

Weitere kostenlose visuelle Modelle:Smart Spectrum offene Plattform, die erste kostenlose multimodale Vision Modell GLM-4V-Flash auf Linie, unbegrenzte Nutzung!

 

Funktionsliste

  • Bild OCRUnterstützt die optische Zeichenerkennung von lokalen und entfernten Bildern.
  • Markdown-AusgabeKonvertiert erkannten Text in das Markdown-Format.
  • Unterstützung mehrerer ModelleLlama 3.2: Es gibt kostenlose und kostenpflichtige Llama 3.2-Modellschnittstellen, die unterschiedliche Leistungsanforderungen erfüllen.
  • API-EinbindungBildanalyse über die API von Together AI.
  • zukünftige FunktionenDas Programm unterstützt die OCR-Verarbeitung von ein- und mehrseitigen PDF-Dateien sowie die Ausgabe im JSON-Format.

 

Hilfe verwenden

Ablauf der Installation

  1. Stellen Sie sicher, dass die Node.js-Umgebung installiert ist.
  2. Installieren Sie die Llama OCR-Bibliothek mit npm:
   npm i llama-ocr

Verwendung

  1. Importieren Sie die Llama OCR-Bibliothek:
   importiere { ocr } von "llama-ocr".
  1. Aufforderungen ocr Funktion für das Parsen von Bildern:
   const markdown = await ocr({
filePath: ". /trader-joes-receipt.jpg", // Pfad der Bilddatei
apiKey: process.env.TOGETHER_API_KEY, // Together AI API Schlüssel
});
  1. Verarbeitet den zurückgegebenen Markdown-Text:
   console.log(markdown);

Detaillierte Funktionsweise

  • Bild OCR: übergibt den Pfad der Bilddatei an den ocr können Sie den Textinhalt des Bildes abrufen.
  • Markdown-AusgabeDer geparste Text wird automatisch in das Markdown-Format konvertiert, um ihn in Dokumenten verwenden zu können.
  • Unterstützung mehrerer Modelle: Durch die Einstellung der Modell Parameter können verschiedene Llama 3.2 Modelle ausgewählt werden (z.B. Llama-3.2-90B-Vision vielleicht Llama-3.2-11B-Vision), um unterschiedliche Leistungsanforderungen zu erfüllen.
  • API-EinbindungDer API-Schlüssel von Together AI muss in einer Umgebungsvariablen gesetzt werden, um die Schnittstelle für das Parsen von Bildern aufzurufen.

Beispielcode (Rechnen)

importiere { ocr } von "llama-ocr".
async function runOCR() {
const markdown = await ocr({
filePath: ". /example-image.jpg",
apiKey: "ihr-zusammen-ai-api-key",
});
console.log(markdown);
}
runOCR();

zukünftige Funktionen

  • PDF-UnterstützungZukünftige Versionen werden OCR von ein- und mehrseitigen PDF-Dateien unterstützen.
  • JSON-AusgabeZusätzlich zum Markdown-Format wird die JSON-Ausgabe für eine einfache Datenverarbeitung und -integration unterstützt.

Mit den oben genannten Schritten können Benutzer die Llama OCR-Bibliothek einfach installieren und verwenden, um Textinhalte in Bildern in das Markdown-Format zu konvertieren und so die Effizienz der Dokumentenverarbeitung zu verbessern.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)