AI Personal Learning
und praktische Anleitung
豆包Marscode1

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Allgemeine Einführung

Llama OCR ist eine OCR-Bibliothek (Optical Character Recognition), die auf Llama 3.2 Vision basiert und Dokumente in das Markdown-Format konvertiert. Die Bibliothek wurde von Nutlope entwickelt und verwendet die Gemeinsam Die kostenlose Schnittstelle Llama 3.2 von AI analysiert Bilder und gibt Markdown-Text zurück. Llama OCR unterstützt OCR von lokalen und entfernten Bildern, für die Zukunft ist Unterstützung für OCR von PDF-Dateien geplant. npm installiert die Bibliothek und macht es einfach, ihre Funktionalität in Projekten aufzurufen.

Referenzobjekte: Zerox


Llama OCR:利用免费Llama 3.2 Vision接口,将文档转换为Markdown的OCR库-1

Demo: https://llamaocr.com/

 

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库-1

Setzen Sie auf die kostenlose Schnittstelle zu Meta Llama Vision von together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

 

Weitere kostenlose visuelle Modelle:Smart Spectrum offene Plattform, die erste kostenlose multimodale Vision Modell GLM-4V-Flash auf Linie, unbegrenzte Nutzung!

 

Funktionsliste

  • Bild OCRUnterstützt die optische Zeichenerkennung von lokalen und entfernten Bildern.
  • Markdown-AusgabeKonvertiert erkannten Text in das Markdown-Format.
  • Unterstützung mehrerer ModelleLlama 3.2: Es gibt kostenlose und kostenpflichtige Llama 3.2-Modellschnittstellen, die unterschiedliche Leistungsanforderungen erfüllen.
  • API-EinbindungBildanalyse über die API von Together AI.
  • zukünftige FunktionenDas Programm unterstützt die OCR-Verarbeitung von ein- und mehrseitigen PDF-Dateien sowie die Ausgabe im JSON-Format.

 

Hilfe verwenden

Einbauverfahren

  1. Stellen Sie sicher, dass die Node.js-Umgebung installiert ist.
  2. Installieren Sie die Llama OCR-Bibliothek mit npm:
   npm i llama-ocr

Verwendung

  1. Importieren Sie die Llama OCR-Bibliothek:
   import { ocr } from "llama-ocr";
  1. Aufforderungen ocr Funktion für das Parsen von Bildern:
   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
  1. Verarbeitet den zurückgegebenen Markdown-Text:
   console.log(markdown);

Detaillierte Funktionsweise

  • Bild OCR: übergibt den Pfad der Bilddatei an den ocr können Sie den Textinhalt des Bildes abrufen.
  • Markdown-AusgabeDer geparste Text wird automatisch in das Markdown-Format konvertiert, um ihn in Dokumenten verwenden zu können.
  • Unterstützung mehrerer Modelle: Durch die Einstellung der model Parameter können verschiedene Llama 3.2 Modelle ausgewählt werden (z.B. Llama-3.2-90B-Vision vielleicht Llama-3.2-11B-Vision), um unterschiedliche Leistungsanforderungen zu erfüllen.
  • API-EinbindungDer API-Schlüssel von Together AI muss in einer Umgebungsvariablen gesetzt werden, um die Schnittstelle für das Parsen von Bildern aufzurufen.

Beispielcode (Rechnen)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

zukünftige Funktionen

  • PDF-UnterstützungZukünftige Versionen werden OCR von ein- und mehrseitigen PDF-Dateien unterstützen.
  • JSON-AusgabeZusätzlich zum Markdown-Format wird die JSON-Ausgabe für eine einfache Datenverarbeitung und -integration unterstützt.

Mit den oben genannten Schritten können Benutzer die Llama OCR-Bibliothek einfach installieren und verwenden, um Textinhalte in Bildern in das Markdown-Format zu konvertieren und so die Effizienz der Dokumentenverarbeitung zu steigern.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet
de_DEDeutsch