AI Personal Learning
und praktische Anleitung

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Allgemeine Einführung

Llama OCR ist eine OCR-Bibliothek (Optical Character Recognition), die auf Llama 3.2 Vision basiert und Dokumente in das Markdown-Format konvertiert. Die Bibliothek wurde von Nutlope entwickelt und verwendet die Gemeinsam Die kostenlose Schnittstelle Llama 3.2 von AI analysiert Bilder und gibt Markdown-Text zurück. Llama OCR unterstützt OCR von lokalen und entfernten Bildern, für die Zukunft ist Unterstützung für OCR von PDF-Dateien geplant. npm installiert die Bibliothek und macht es einfach, ihre Funktionalität in Projekten aufzurufen.

Referenzobjekte: Zerox


Llama OCR: OCR-Bibliothek zur Konvertierung von Dokumenten in Markdown unter Verwendung der kostenlosen Llama 3.2 Vision-Schnittstelle-1

Demo: https://llamaocr.com/

 

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet-1

Setzen Sie auf die kostenlose Schnittstelle zu Meta Llama Vision von together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

 

Weitere kostenlose visuelle Modelle:Smart Spectrum offene Plattform, die erste kostenlose multimodale Vision Modell GLM-4V-Flash auf Linie, unbegrenzte Nutzung!

 

Funktionsliste

  • Bild OCRUnterstützt die optische Zeichenerkennung von lokalen und entfernten Bildern.
  • Markdown-AusgabeKonvertiert erkannten Text in das Markdown-Format.
  • Unterstützung mehrerer ModelleLlama 3.2: Es gibt kostenlose und kostenpflichtige Llama 3.2-Modellschnittstellen, die unterschiedliche Leistungsanforderungen erfüllen.
  • API-EinbindungBildanalyse über die API von Together AI.
  • zukünftige FunktionenDas Programm unterstützt die OCR-Verarbeitung von ein- und mehrseitigen PDF-Dateien sowie die Ausgabe im JSON-Format.

 

Hilfe verwenden

Ablauf der Installation

  1. Stellen Sie sicher, dass die Node.js-Umgebung installiert ist.
  2. Installieren Sie die Llama OCR-Bibliothek mit npm:
   npm i llama-ocr

Verwendung

  1. Importieren Sie die Llama OCR-Bibliothek:
   importiere { ocr } von "llama-ocr".
  1. Aufforderungen ocr Funktion für das Parsen von Bildern:
   const markdown = await ocr({
filePath: ". /trader-joes-receipt.jpg", // Pfad der Bilddatei
apiKey: process.env.TOGETHER_API_KEY, // Together AI API Schlüssel
});
  1. Verarbeitet den zurückgegebenen Markdown-Text:
   console.log(markdown);

Detaillierte Funktionsweise

  • Bild OCR: übergibt den Pfad der Bilddatei an den ocr können Sie den Textinhalt des Bildes abrufen.
  • Markdown-AusgabeDer geparste Text wird automatisch in das Markdown-Format konvertiert, um ihn in Dokumenten verwenden zu können.
  • Unterstützung mehrerer Modelle: Durch die Einstellung der Modell Parameter können verschiedene Llama 3.2 Modelle ausgewählt werden (z.B. Llama-3.2-90B-Vision vielleicht Llama-3.2-11B-Vision), um unterschiedliche Leistungsanforderungen zu erfüllen.
  • API-EinbindungDer API-Schlüssel von Together AI muss in einer Umgebungsvariablen gesetzt werden, um die Schnittstelle für das Parsen von Bildern aufzurufen.

Beispielcode (Rechnen)

importiere { ocr } von "llama-ocr".
async function runOCR() {
const markdown = await ocr({
filePath: ". /example-image.jpg",
apiKey: "ihr-zusammen-ai-api-key",
});
console.log(markdown);
}
runOCR();

zukünftige Funktionen

  • PDF-UnterstützungZukünftige Versionen werden OCR von ein- und mehrseitigen PDF-Dateien unterstützen.
  • JSON-AusgabeZusätzlich zum Markdown-Format wird die JSON-Ausgabe für eine einfache Datenverarbeitung und -integration unterstützt.

Mit den oben genannten Schritten können Benutzer die Llama OCR-Bibliothek einfach installieren und verwenden, um Textinhalte in Bildern in das Markdown-Format zu konvertieren und so die Effizienz der Dokumentenverarbeitung zu verbessern.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)