Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

Llama OCR ist eine OCR-Bibliothek (Optical Character Recognition), die auf Llama 3.2 Vision basiert und Dokumente in das Markdown-Format konvertiert. Die Bibliothek wurde von Nutlope entwickelt und verwendet die Gemeinsam Die kostenlose Schnittstelle Llama 3.2 von AI analysiert Bilder und gibt Markdown-Text zurück. Llama OCR unterstützt OCR von lokalen und entfernten Bildern, für die Zukunft ist Unterstützung für OCR von PDF-Dateien geplant. npm installiert die Bibliothek und macht es einfach, ihre Funktionalität in Projekten aufzurufen.

Referenzobjekte: Zerox

Llama OCR：利用免费Llama 3.2 Vision接口，将文档转换为Markdown的OCR库-1

Demo: https://llamaocr.com/

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库-1

Setzen Sie auf die kostenlose Schnittstelle zu Meta Llama Vision von together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

Weitere kostenlose visuelle Modelle:Smart Spectrum offene Plattform, die erste kostenlose multimodale Vision Modell GLM-4V-Flash auf Linie, unbegrenzte Nutzung!

Funktionsliste

Bild OCRUnterstützt die optische Zeichenerkennung von lokalen und entfernten Bildern.
Markdown-AusgabeKonvertiert erkannten Text in das Markdown-Format.
Unterstützung mehrerer ModelleLlama 3.2: Es gibt kostenlose und kostenpflichtige Llama 3.2-Modellschnittstellen, die unterschiedliche Leistungsanforderungen erfüllen.
API-EinbindungBildanalyse über die API von Together AI.
zukünftige FunktionenDas Programm unterstützt die OCR-Verarbeitung von ein- und mehrseitigen PDF-Dateien sowie die Ausgabe im JSON-Format.

Hilfe verwenden

Einbauverfahren

Stellen Sie sicher, dass die Node.js-Umgebung installiert ist.
Installieren Sie die Llama OCR-Bibliothek mit npm:

   npm i llama-ocr

Verwendung

Importieren Sie die Llama OCR-Bibliothek:

   import { ocr } from "llama-ocr";

Aufforderungen ocr Funktion für das Parsen von Bildern:

   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});

Verarbeitet den zurückgegebenen Markdown-Text:

   console.log(markdown);

Detaillierte Funktionsweise

Bild OCR: übergibt den Pfad der Bilddatei an den ocr können Sie den Textinhalt des Bildes abrufen.
Markdown-AusgabeDer geparste Text wird automatisch in das Markdown-Format konvertiert, um ihn in Dokumenten verwenden zu können.
Unterstützung mehrerer Modelle: Durch die Einstellung der model Parameter können verschiedene Llama 3.2 Modelle ausgewählt werden (z.B. Llama-3.2-90B-Vision vielleicht Llama-3.2-11B-Vision), um unterschiedliche Leistungsanforderungen zu erfüllen.
API-EinbindungDer API-Schlüssel von Together AI muss in einer Umgebungsvariablen gesetzt werden, um die Schnittstelle für das Parsen von Bildern aufzurufen.

Beispielcode (Rechnen)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

zukünftige Funktionen

PDF-UnterstützungZukünftige Versionen werden OCR von ein- und mehrseitigen PDF-Dateien unterstützen.
JSON-AusgabeZusätzlich zum Markdown-Format wird die JSON-Ausgabe für eine einfache Datenverarbeitung und -integration unterstützt.

Mit den oben genannten Schritten können Benutzer die Llama OCR-Bibliothek einfach installieren und verwenden, um Textinhalte in Bildern in das Markdown-Format zu konvertieren und so die Effizienz der Dokumentenverarbeitung zu steigern.

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Verwendung

Detaillierte Funktionsweise

Beispielcode (Rechnen)

zukünftige Funktionen

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Aktuelle AI-Hotspots

Empfehlungen für AI-Tools

AI Tools Klassifizierung