Llama OCR: biblioteca OCR que convierte imágenes a Markdown en tres líneas de código utilizando la interfaz gratuita Llama 3.2 Vision.
Últimos recursos sobre IAPublicado hace 8 meses Círculo de intercambio de inteligencia artificial 3.1K 00
Introducción general
Llama OCR es una librería OCR (Optical Character Recognition) basada en Llama 3.2 Vision que convierte documentos al formato Markdown. La biblioteca fue desarrollada por Nutlope y utiliza el Juntos La interfaz gratuita Llama 3.2 proporcionada por AI analiza imágenes y devuelve texto Markdown. Llama OCR soporta OCR de imágenes locales y remotas, con soporte para OCR de archivos PDF previsto para el futuro. npm instala la biblioteca y facilita la invocación de su funcionalidad en los proyectos.
Artículos de referencia: Zerox

Demostración: https://llamaocr.com/

Confíe en la interfaz gratuita de Meta Llama Vision proporcionada por together: https://api.together.ai/models/meta-llama/Llama-Vision-Free
Más modelos visuales gratuitos:Plataforma abierta Smart Spectrum, el primer modelo gratuito de visión multimodal GLM-4V-Flash en línea, ¡uso ilimitado!
Lista de funciones
- OCR de imágenes: Admite el reconocimiento óptico de caracteres de imágenes locales y remotas.
- Salida MarkdownConvierte el texto reconocido al formato Markdown.
- Compatibilidad con varios modelos: Existen interfaces modelo Llama 3.2 gratuitas y de pago para satisfacer diferentes requisitos de rendimiento.
- Integración APIAnálisis sintáctico de imágenes mediante la API de Together AI.
- funciones futuras: El programa admite el procesamiento OCR de PDF de una o varias páginas, así como la salida en formato JSON.
Utilizar la ayuda
Proceso de instalación
- Asegúrese de que el entorno Node.js está instalado.
- Instala la librería Llama OCR usando npm:
npm i llama-ocr
Utilización
- Importe la biblioteca Llama OCR:
import { ocr } from "llama-ocr";
- invocaciones
ocr
para el análisis de imágenes:
const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
- Procesa el texto Markdown devuelto:
console.log(markdown);
Funcionamiento detallado
- OCR de imágenespasa la ruta del archivo de imagen a
ocr
puede obtener el contenido de texto de la imagen. - Salida MarkdownEl texto analizado se convierte automáticamente al formato Markdown para facilitar su uso en documentos.
- Compatibilidad con varios modelos: Fijando el
model
parámetros, se pueden seleccionar diferentes modelos de Llama 3.2 (p. ej.Llama-3.2-90B-Vision
tal vezLlama-3.2-11B-Vision
) para satisfacer diferentes necesidades de rendimiento. - Integración APILa clave API de Together AI debe establecerse en una variable de entorno para poder llamar a su interfaz de análisis de imágenes.
código de ejemplo (informática)
import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();
funciones futuras
- Soporte PDF: Las versiones futuras admitirán el reconocimiento óptico de caracteres de archivos PDF de una o varias páginas.
- Salida JSONAdemás del formato Markdown, se admitirá la salida JSON para facilitar el tratamiento y la integración de los datos.
Con los pasos anteriores, los usuarios pueden instalar y utilizar fácilmente la biblioteca Llama OCR para convertir el contenido de texto de las imágenes al formato Markdown, mejorando la eficacia del procesamiento de documentos.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...