Llama OCR: библиотека OCR, которая конвертирует изображения в Markdown в три строки кода, используя бесплатный интерфейс Llama 3.2 Vision.

Общее введение

Llama OCR - это библиотека OCR (Optical Character Recognition), основанная на Llama 3.2 Vision, которая конвертирует документы в формат Markdown. Библиотека была разработана компанией Nutlope и использует Вместе Бесплатный интерфейс Llama 3.2, предоставленный компанией AI, анализирует изображения и возвращает текст в формате Markdown. Llama OCR поддерживает распознавание локальных и удаленных изображений, а в будущем планируется поддержка распознавания PDF-файлов. npm устанавливает библиотеку и упрощает вызов ее функциональности в проектах.

Справочные материалы: Zerox

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

Демо: https://llamaocr.com/

 

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

Положитесь на бесплатный интерфейс к Meta Llama Vision, предоставляемый вместе: https://api.together.ai/models/meta-llama/Llama-Vision-Free.

 

Больше бесплатных визуальных моделей:Smart Spectrum открытая платформа, первая бесплатная мультимодальная модель зрения GLM-4V-Flash на линии, неограниченное использование!

 

Список функций

  • Распознавание изображений: Поддержка оптического распознавания символов на локальных и удаленных изображениях.
  • Вывод в формате уценки: Преобразует распознанный текст в формат Markdown.
  • Поддержка нескольких моделей: Доступны бесплатные и платные интерфейсы модели Llama 3.2, отвечающие различным требованиям к производительности.
  • Интеграция API: Парсинг изображений с помощью API Together AI.
  • будущие функции: Программа поддерживает OCR-обработку одно- и многостраничных PDF-файлов, а также вывод в формате JSON.

 

Использование помощи

Процесс установки

  1. Убедитесь, что среда Node.js установлена.
  2. Установите библиотеку Llama OCR с помощью npm:
   npm i llama-ocr

Использование

  1. Импортируйте библиотеку Llama OCR:
   import { ocr } from "llama-ocr";
  1. приглашения ocr функция для разбора изображений:
   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
  1. Обрабатывает полученный текст в формате Markdown:
   console.log(markdown);

Детальное управление функциями

  • Распознавание изображений: передает путь к файлу изображения в ocr Функция позволяет получить текстовое содержимое изображения.
  • Вывод в формате уценки: Разобранный текст автоматически преобразуется в формат Markdown для удобства использования в документах.
  • Поддержка нескольких моделей: При установке model параметры, можно выбрать различные модели Llama 3.2 (например. Llama-3.2-90B-Vision возможно Llama-3.2-11B-Vision) для удовлетворения различных потребностей в производительности.
  • Интеграция API: API-ключ Together AI должен быть задан в переменной окружения, чтобы вызвать его интерфейс для разбора изображений.

пример кода (вычисления)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

будущие функции

  • Поддержка PDF: Будущие версии будут поддерживать распознавание одностраничных и многостраничных файлов PDF.
  • Вывод JSON: В дополнение к формату Markdown будет поддерживаться вывод JSON для упрощения обработки и интеграции данных.

Выполнив описанные выше действия, пользователи смогут легко установить и использовать библиотеку Llama OCR для преобразования текстового содержимого изображений в формат Markdown, повышая эффективность обработки документов.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...