Llama OCR: библиотека OCR, которая конвертирует изображения в Markdown в три строки кода, используя бесплатный интерфейс Llama 3.2 Vision.
Общее введение
Llama OCR - это библиотека OCR (Optical Character Recognition), основанная на Llama 3.2 Vision, которая конвертирует документы в формат Markdown. Библиотека была разработана компанией Nutlope и использует Вместе Бесплатный интерфейс Llama 3.2, предоставленный компанией AI, анализирует изображения и возвращает текст в формате Markdown. Llama OCR поддерживает распознавание локальных и удаленных изображений, а в будущем планируется поддержка распознавания PDF-файлов. npm устанавливает библиотеку и упрощает вызов ее функциональности в проектах.
Справочные материалы: Zerox

Демо: https://llamaocr.com/

Положитесь на бесплатный интерфейс к Meta Llama Vision, предоставляемый вместе: https://api.together.ai/models/meta-llama/Llama-Vision-Free.
Больше бесплатных визуальных моделей:Smart Spectrum открытая платформа, первая бесплатная мультимодальная модель зрения GLM-4V-Flash на линии, неограниченное использование!
Список функций
- Распознавание изображений: Поддержка оптического распознавания символов на локальных и удаленных изображениях.
- Вывод в формате уценки: Преобразует распознанный текст в формат Markdown.
- Поддержка нескольких моделей: Доступны бесплатные и платные интерфейсы модели Llama 3.2, отвечающие различным требованиям к производительности.
- Интеграция API: Парсинг изображений с помощью API Together AI.
- будущие функции: Программа поддерживает OCR-обработку одно- и многостраничных PDF-файлов, а также вывод в формате JSON.
Использование помощи
Процесс установки
- Убедитесь, что среда Node.js установлена.
- Установите библиотеку Llama OCR с помощью npm:
npm i llama-ocr
Использование
- Импортируйте библиотеку Llama OCR:
import { ocr } from "llama-ocr";
- приглашения
ocr
функция для разбора изображений:
const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
- Обрабатывает полученный текст в формате Markdown:
console.log(markdown);
Детальное управление функциями
- Распознавание изображений: передает путь к файлу изображения в
ocr
Функция позволяет получить текстовое содержимое изображения. - Вывод в формате уценки: Разобранный текст автоматически преобразуется в формат Markdown для удобства использования в документах.
- Поддержка нескольких моделей: При установке
model
параметры, можно выбрать различные модели Llama 3.2 (например.Llama-3.2-90B-Vision
возможноLlama-3.2-11B-Vision
) для удовлетворения различных потребностей в производительности. - Интеграция API: API-ключ Together AI должен быть задан в переменной окружения, чтобы вызвать его интерфейс для разбора изображений.
пример кода (вычисления)
import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();
будущие функции
- Поддержка PDF: Будущие версии будут поддерживать распознавание одностраничных и многостраничных файлов PDF.
- Вывод JSON: В дополнение к формату Markdown будет поддерживаться вывод JSON для упрощения обработки и интеграции данных.
Выполнив описанные выше действия, пользователи смогут легко установить и использовать библиотеку Llama OCR для преобразования текстового содержимого изображений в формат Markdown, повышая эффективность обработки документов.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...