Allgemeine Einführung
Llama OCR ist eine OCR-Bibliothek (Optical Character Recognition), die auf Llama 3.2 Vision basiert und Dokumente in das Markdown-Format konvertiert. Die Bibliothek wurde von Nutlope entwickelt und verwendet die Gemeinsam Die kostenlose Schnittstelle Llama 3.2 von AI analysiert Bilder und gibt Markdown-Text zurück. Llama OCR unterstützt OCR von lokalen und entfernten Bildern, für die Zukunft ist Unterstützung für OCR von PDF-Dateien geplant. npm installiert die Bibliothek und macht es einfach, ihre Funktionalität in Projekten aufzurufen.
Referenzobjekte: Zerox
Weitere kostenlose visuelle Modelle:Smart Spectrum offene Plattform, die erste kostenlose multimodale Vision Modell GLM-4V-Flash auf Linie, unbegrenzte Nutzung!
Funktionsliste
- Bild OCRUnterstützt die optische Zeichenerkennung von lokalen und entfernten Bildern.
- Markdown-AusgabeKonvertiert erkannten Text in das Markdown-Format.
- Unterstützung mehrerer ModelleLlama 3.2: Es gibt kostenlose und kostenpflichtige Llama 3.2-Modellschnittstellen, die unterschiedliche Leistungsanforderungen erfüllen.
- API-EinbindungBildanalyse über die API von Together AI.
- zukünftige FunktionenDas Programm unterstützt die OCR-Verarbeitung von ein- und mehrseitigen PDF-Dateien sowie die Ausgabe im JSON-Format.
Hilfe verwenden
Ablauf der Installation
- Stellen Sie sicher, dass die Node.js-Umgebung installiert ist.
- Installieren Sie die Llama OCR-Bibliothek mit npm:
npm i llama-ocr
Verwendung
- Importieren Sie die Llama OCR-Bibliothek:
importiere { ocr } von "llama-ocr".
- Aufforderungen
ocr
Funktion für das Parsen von Bildern:
const markdown = await ocr({
filePath: ". /trader-joes-receipt.jpg", // Pfad der Bilddatei
apiKey: process.env.TOGETHER_API_KEY, // Together AI API Schlüssel
});
- Verarbeitet den zurückgegebenen Markdown-Text:
console.log(markdown);
Detaillierte Funktionsweise
- Bild OCR: übergibt den Pfad der Bilddatei an den
ocr
können Sie den Textinhalt des Bildes abrufen. - Markdown-AusgabeDer geparste Text wird automatisch in das Markdown-Format konvertiert, um ihn in Dokumenten verwenden zu können.
- Unterstützung mehrerer Modelle: Durch die Einstellung der
Modell
Parameter können verschiedene Llama 3.2 Modelle ausgewählt werden (z.B.Llama-3.2-90B-Vision
vielleichtLlama-3.2-11B-Vision
), um unterschiedliche Leistungsanforderungen zu erfüllen. - API-EinbindungDer API-Schlüssel von Together AI muss in einer Umgebungsvariablen gesetzt werden, um die Schnittstelle für das Parsen von Bildern aufzurufen.
Beispielcode (Rechnen)
importiere { ocr } von "llama-ocr".
async function runOCR() {
const markdown = await ocr({
filePath: ". /example-image.jpg",
apiKey: "ihr-zusammen-ai-api-key",
});
console.log(markdown);
}
runOCR();
zukünftige Funktionen
- PDF-UnterstützungZukünftige Versionen werden OCR von ein- und mehrseitigen PDF-Dateien unterstützen.
- JSON-AusgabeZusätzlich zum Markdown-Format wird die JSON-Ausgabe für eine einfache Datenverarbeitung und -integration unterstützt.
Mit den oben genannten Schritten können Benutzer die Llama OCR-Bibliothek einfach installieren und verwenden, um Textinhalte in Bildern in das Markdown-Format zu konvertieren und so die Effizienz der Dokumentenverarbeitung zu verbessern.