Llama OCR: biblioteca OCR que convierte imágenes a Markdown en tres líneas de código utilizando la interfaz gratuita Llama 3.2 Vision.

Introducción general

Llama OCR es una librería OCR (Optical Character Recognition) basada en Llama 3.2 Vision que convierte documentos al formato Markdown. La biblioteca fue desarrollada por Nutlope y utiliza el Juntos La interfaz gratuita Llama 3.2 proporcionada por AI analiza imágenes y devuelve texto Markdown. Llama OCR soporta OCR de imágenes locales y remotas, con soporte para OCR de archivos PDF previsto para el futuro. npm instala la biblioteca y facilita la invocación de su funcionalidad en los proyectos.

Artículos de referencia: Zerox

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

Demostración: https://llamaocr.com/

 

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

Confíe en la interfaz gratuita de Meta Llama Vision proporcionada por together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

 

Más modelos visuales gratuitos:Plataforma abierta Smart Spectrum, el primer modelo gratuito de visión multimodal GLM-4V-Flash en línea, ¡uso ilimitado!

 

Lista de funciones

  • OCR de imágenes: Admite el reconocimiento óptico de caracteres de imágenes locales y remotas.
  • Salida MarkdownConvierte el texto reconocido al formato Markdown.
  • Compatibilidad con varios modelos: Existen interfaces modelo Llama 3.2 gratuitas y de pago para satisfacer diferentes requisitos de rendimiento.
  • Integración APIAnálisis sintáctico de imágenes mediante la API de Together AI.
  • funciones futuras: El programa admite el procesamiento OCR de PDF de una o varias páginas, así como la salida en formato JSON.

 

Utilizar la ayuda

Proceso de instalación

  1. Asegúrese de que el entorno Node.js está instalado.
  2. Instala la librería Llama OCR usando npm:
   npm i llama-ocr

Utilización

  1. Importe la biblioteca Llama OCR:
   import { ocr } from "llama-ocr";
  1. invocaciones ocr para el análisis de imágenes:
   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
  1. Procesa el texto Markdown devuelto:
   console.log(markdown);

Funcionamiento detallado

  • OCR de imágenespasa la ruta del archivo de imagen a ocr puede obtener el contenido de texto de la imagen.
  • Salida MarkdownEl texto analizado se convierte automáticamente al formato Markdown para facilitar su uso en documentos.
  • Compatibilidad con varios modelos: Fijando el model parámetros, se pueden seleccionar diferentes modelos de Llama 3.2 (p. ej. Llama-3.2-90B-Vision tal vez Llama-3.2-11B-Vision) para satisfacer diferentes necesidades de rendimiento.
  • Integración APILa clave API de Together AI debe establecerse en una variable de entorno para poder llamar a su interfaz de análisis de imágenes.

código de ejemplo (informática)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

funciones futuras

  • Soporte PDF: Las versiones futuras admitirán el reconocimiento óptico de caracteres de archivos PDF de una o varias páginas.
  • Salida JSONAdemás del formato Markdown, se admitirá la salida JSON para facilitar el tratamiento y la integración de los datos.

Con los pasos anteriores, los usuarios pueden instalar y utilizar fácilmente la biblioteca Llama OCR para convertir el contenido de texto de las imágenes al formato Markdown, mejorando la eficacia del procesamiento de documentos.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...