Llama OCR: biblioteca OCR que convierte imágenes a Markdown en tres líneas de código utilizando la interfaz gratuita Llama 3.2 Vision.

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

58.8K 00

Introducción general

Llama OCR es una librería OCR (Optical Character Recognition) basada en Llama 3.2 Vision que convierte documentos al formato Markdown. La biblioteca fue desarrollada por Nutlope y utiliza el Juntos La interfaz gratuita Llama 3.2 proporcionada por AI analiza imágenes y devuelve texto Markdown. Llama OCR soporta OCR de imágenes locales y remotas, con soporte para OCR de archivos PDF previsto para el futuro. npm instala la biblioteca y facilita la invocación de su funcionalidad en los proyectos.

Artículos de referencia: Zerox

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

Demostración: https://llamaocr.com/

Confíe en la interfaz gratuita de Meta Llama Vision proporcionada por together: https://api.together.ai/models/meta-llama/Llama-Vision-Free

Más modelos visuales gratuitos:Plataforma abierta Smart Spectrum, el primer modelo gratuito de visión multimodal GLM-4V-Flash en línea, ¡uso ilimitado!

Lista de funciones

OCR de imágenes: Admite el reconocimiento óptico de caracteres de imágenes locales y remotas.
Salida MarkdownConvierte el texto reconocido al formato Markdown.
Compatibilidad con varios modelos: Existen interfaces modelo Llama 3.2 gratuitas y de pago para satisfacer diferentes requisitos de rendimiento.
Integración APIAnálisis sintáctico de imágenes mediante la API de Together AI.
funciones futuras: El programa admite el procesamiento OCR de PDF de una o varias páginas, así como la salida en formato JSON.

Utilizar la ayuda

Proceso de instalación

Asegúrese de que el entorno Node.js está instalado.
Instala la librería Llama OCR usando npm:

   npm i llama-ocr

Utilización

Importe la biblioteca Llama OCR:

   import { ocr } from "llama-ocr";

invocaciones ocr para el análisis de imágenes:

   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});

Procesa el texto Markdown devuelto:

   console.log(markdown);

Funcionamiento detallado

OCR de imágenespasa la ruta del archivo de imagen a ocr puede obtener el contenido de texto de la imagen.
Salida MarkdownEl texto analizado se convierte automáticamente al formato Markdown para facilitar su uso en documentos.
Compatibilidad con varios modelos: Fijando el model parámetros, se pueden seleccionar diferentes modelos de Llama 3.2 (p. ej. Llama-3.2-90B-Vision tal vez Llama-3.2-11B-Vision) para satisfacer diferentes necesidades de rendimiento.
Integración APILa clave API de Together AI debe establecerse en una variable de entorno para poder llamar a su interfaz de análisis de imágenes.

código de ejemplo (informática)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

funciones futuras

Soporte PDF: Las versiones futuras admitirán el reconocimiento óptico de caracteres de archivos PDF de una o varias páginas.
Salida JSONAdemás del formato Markdown, se admitirá la salida JSON para facilitar el tratamiento y la integración de los datos.

Con los pasos anteriores, los usuarios pueden instalar y utilizar fácilmente la biblioteca Llama OCR para convertir el contenido de texto de las imágenes al formato Markdown, mejorando la eficacia del procesamiento de documentos.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Libre Modelo Grande API

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Academic Alley: arxiv Academic Papers Versión traducida al chino

Últimos recursos sobre IA # AI Servicios abiertos

hace 1 año

045.6K

TableGPT Agent: herramienta inteligente diseñada para analizar datos tabulares complejos

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Análisis de datos de IA

hace 1 año

059.3K

HeyGen - Plataforma de creación de vídeo humano digital con IA y soporte de traducción y doblaje multilingüe

Últimos recursos sobre IA

hace 10 meses

040.8K

Reclaim AI: herramienta de gestión de calendarios y seguimiento del tiempo con inteligencia artificial, asistente de programación inteligente

Últimos recursos sobre IA # AI Asistente de Eficiencia Vital

hace 1 año

061.3K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Llama OCR: biblioteca OCR que convierte imágenes a Markdown en tres líneas de código utilizando la interfaz gratuita Llama 3.2 Vision.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Utilización

Funcionamiento detallado

código de ejemplo (informática)

funciones futuras

Invideo AI: herramienta de vídeo nacida y desarrollada con IA | plataforma de producción y edición de vídeo profesional

Vídeo híbrido de Vincennes: generación de secuencias realistas de vídeo de alta calidad, generación de vídeo de código abierto de Tencent de modelos de gran tamaño

Artículos relacionados

Academic Alley: arxiv Academic Papers Versión traducida al chino

TableGPT Agent: herramienta inteligente diseñada para analizar datos tabulares complejos

HeyGen - Plataforma de creación de vídeo humano digital con IA y soporte de traducción y doblaje multilingüe

Reclaim AI: herramienta de gestión de calendarios y seguimiento del tiempo con inteligencia artificial, asistente de programación inteligente

Sin comentarios

Últimas colecciones

Últimos artículos

Llama OCR: biblioteca OCR que convierte imágenes a Markdown en tres líneas de código utilizando la interfaz gratuita Llama 3.2 Vision.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Utilización

Funcionamiento detallado

código de ejemplo (informática)

funciones futuras

Invideo AI: herramienta de vídeo nacida y desarrollada con IA | plataforma de producción y edición de vídeo profesional

Vídeo híbrido de Vincennes: generación de secuencias realistas de vídeo de alta calidad, generación de vídeo de código abierto de Tencent de modelos de gran tamaño

Artículos relacionados

Academic Alley: arxiv Academic Papers Versión traducida al chino

TableGPT Agent: herramienta inteligente diseñada para analizar datos tabulares complejos

HeyGen - Plataforma de creación de vídeo humano digital con IA y soporte de traducción y doblaje multilingüe

Reclaim AI: herramienta de gestión de calendarios y seguimiento del tiempo con inteligencia artificial, asistente de programación inteligente

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos