Llama OCR : bibliothèque OCR qui convertit des images en Markdown en trois lignes de code en utilisant l'interface gratuite Llama 3.2 Vision.

Dernières ressources sur l'IAPosté il y a 9 mois Cercle de partage de l'IA

Introduction générale

Llama OCR est une bibliothèque OCR (Optical Character Recognition) basée sur Llama 3.2 Vision qui convertit les documents au format Markdown. La bibliothèque a été développée par Nutlope et utilise la technologie Ensemble L'interface gratuite Llama 3.2 fournie par AI analyse les images et renvoie du texte en Markdown. Llama OCR prend en charge l'OCR d'images locales et distantes, avec la prise en charge de l'OCR de fichiers PDF prévue pour l'avenir. npm installe la bibliothèque et facilite l'invocation de ses fonctionnalités dans les projets.

Articles de référence : Zerox

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

Démonstration : https://llamaocr.com/

S'appuyer sur l'interface gratuite de Meta Llama Vision fournie par together : https://api.together.ai/models/meta-llama/Llama-Vision-Free

Plus de modèles visuels gratuits :Smart Spectrum open platform, le premier modèle de vision multimodale GLM-4V-Flash gratuit en ligne, utilisation illimitée !

Liste des fonctions

Image OCRReconnaissance optique de caractères : permet la reconnaissance optique de caractères d'images locales et distantes.
Sortie Markdown: Convertit le texte reconnu au format Markdown.
Prise en charge de plusieurs modèlesLes interfaces gratuites et payantes du modèle Llama 3.2 sont disponibles pour répondre à différentes exigences de performance.
Intégration de l'APIAnalyse d'images via l'API de Together AI.
fonctions futuresLe programme prend en charge le traitement ROC des PDF d'une ou plusieurs pages, ainsi que la sortie au format JSON.

Utiliser l'aide

Processus d'installation

Assurez-vous que l'environnement Node.js est installé.
Installez la bibliothèque Llama OCR en utilisant npm :

   npm i llama-ocr

Utilisation

Importer la bibliothèque Llama OCR :

   import { ocr } from "llama-ocr";

invocations ocr pour l'analyse des images :

   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});

Traite le texte Markdown retourné :

   console.log(markdown);

Fonctionnement détaillé

Image OCR: transmet le chemin d'accès au fichier image à la fonction ocr vous permet d'obtenir le contenu textuel de l'image.
Sortie MarkdownLe texte analysé est automatiquement converti au format Markdown pour faciliter son utilisation dans les documents.
Prise en charge de plusieurs modèlesEn réglant l'option model différents modèles de Llama 3.2 peuvent être sélectionnés (par ex. Llama-3.2-90B-Vision peut-être Llama-3.2-11B-Vision) pour répondre à différents besoins de performance.
Intégration de l'APILa clé API de Together AI doit être définie dans une variable d'environnement afin d'appeler son interface d'analyse d'images.

exemple de code (informatique)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

fonctions futures

Soutien PDFLes versions ultérieures prendront en charge l'OCR des fichiers PDF d'une ou de plusieurs pages.
Sortie JSONEn plus du format Markdown, la sortie JSON sera prise en charge pour faciliter le traitement et l'intégration des données.

Avec les étapes ci-dessus, les utilisateurs peuvent facilement installer et utiliser la bibliothèque Llama OCR pour convertir le contenu textuel des images au format Markdown, améliorant ainsi l'efficacité du traitement des documents.