Llama OCR: библиотека OCR, которая конвертирует изображения в Markdown в три строки кода, используя бесплатный интерфейс Llama 3.2 Vision.

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

58.8K 00

Общее введение

Llama OCR - это библиотека OCR (Optical Character Recognition), основанная на Llama 3.2 Vision, которая конвертирует документы в формат Markdown. Библиотека была разработана компанией Nutlope и использует Вместе Бесплатный интерфейс Llama 3.2, предоставленный компанией AI, анализирует изображения и возвращает текст в формате Markdown. Llama OCR поддерживает распознавание локальных и удаленных изображений, а в будущем планируется поддержка распознавания PDF-файлов. npm устанавливает библиотеку и упрощает вызов ее функциональности в проектах.

Справочные материалы: Zerox

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

Демо: https://llamaocr.com/

Положитесь на бесплатный интерфейс к Meta Llama Vision, предоставляемый вместе: https://api.together.ai/models/meta-llama/Llama-Vision-Free.

Больше бесплатных визуальных моделей:Smart Spectrum открытая платформа, первая бесплатная мультимодальная модель зрения GLM-4V-Flash на линии, неограниченное использование!

Список функций

Распознавание изображений: Поддержка оптического распознавания символов на локальных и удаленных изображениях.
Вывод в формате уценки: Преобразует распознанный текст в формат Markdown.
Поддержка нескольких моделей: Доступны бесплатные и платные интерфейсы модели Llama 3.2, отвечающие различным требованиям к производительности.
Интеграция API: Парсинг изображений с помощью API Together AI.
будущие функции: Программа поддерживает OCR-обработку одно- и многостраничных PDF-файлов, а также вывод в формате JSON.

Использование помощи

Процесс установки

Убедитесь, что среда Node.js установлена.
Установите библиотеку Llama OCR с помощью npm:

   npm i llama-ocr

Использование

Импортируйте библиотеку Llama OCR:

   import { ocr } from "llama-ocr";

приглашения ocr функция для разбора изображений:

   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});

Обрабатывает полученный текст в формате Markdown:

   console.log(markdown);

Детальное управление функциями

Распознавание изображений: передает путь к файлу изображения в ocr Функция позволяет получить текстовое содержимое изображения.
Вывод в формате уценки: Разобранный текст автоматически преобразуется в формат Markdown для удобства использования в документах.
Поддержка нескольких моделей: При установке model параметры, можно выбрать различные модели Llama 3.2 (например. Llama-3.2-90B-Vision возможно Llama-3.2-11B-Vision) для удовлетворения различных потребностей в производительности.
Интеграция API: API-ключ Together AI должен быть задан в переменной окружения, чтобы вызвать его интерфейс для разбора изображений.

пример кода (вычисления)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();

будущие функции

Поддержка PDF: Будущие версии будут поддерживать распознавание одностраничных и многостраничных файлов PDF.
Вывод JSON: В дополнение к формату Markdown будет поддерживаться вывод JSON для упрощения обработки и интеграции данных.

Выполнив описанные выше действия, пользователи смогут легко установить и использовать библиотеку Llama OCR для преобразования текстового содержимого изображений в формат Markdown, повышая эффективность обработки документов.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # OCR # Бесплатная большая модель API

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Академическая аллея: arxiv Academic Papers Chinese Translation Version

Последние ресурсы по искусственному интеллекту # AI Open Services

1 год назад

045.6K

TableGPT Agent: интеллектуальный инструмент, предназначенный для анализа сложных табличных данных

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Анализ данных искусственного интеллекта

1 год назад

059.3K

HeyGen - платформа для создания видео с искусственным интеллектом и поддержкой перевода и дубляжа на несколько языков

Последние ресурсы по искусственному интеллекту

10 месяцев назад

040.8K

Reclaim AI: ИИ-инструмент для управления календарем и отслеживания времени, умный помощник по составлению расписания

Последние ресурсы по искусственному интеллекту # AI Помощник по повышению эффективности жизни

1 год назад

061.3K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Llama OCR: библиотека OCR, которая конвертирует изображения в Markdown в три строки кода, используя бесплатный интерфейс Llama 3.2 Vision.

Общее введение

Список функций

Использование помощи

Процесс установки

Использование

Детальное управление функциями

пример кода (вычисления)

будущие функции

Invideo AI: видеоинструмент, созданный и выращенный искусственным интеллектом | профессиональная платформа для производства и редактирования видео

Гибридное видео Vincennes: генерация реалистичных кадров высококачественного видео, Tencent с открытым исходным кодом для генерации видео больших моделей

Похожие статьи

Академическая аллея: arxiv Academic Papers Chinese Translation Version

TableGPT Agent: интеллектуальный инструмент, предназначенный для анализа сложных табличных данных

HeyGen - платформа для создания видео с искусственным интеллектом и поддержкой перевода и дубляжа на несколько языков

Reclaim AI: ИИ-инструмент для управления календарем и отслеживания времени, умный помощник по составлению расписания

Нет комментариев

Последние коллекции

Последние статьи

Llama OCR: библиотека OCR, которая конвертирует изображения в Markdown в три строки кода, используя бесплатный интерфейс Llama 3.2 Vision.

Общее введение

Список функций

Использование помощи

Процесс установки

Использование

Детальное управление функциями

пример кода (вычисления)

будущие функции

Invideo AI: видеоинструмент, созданный и выращенный искусственным интеллектом | профессиональная платформа для производства и редактирования видео

Гибридное видео Vincennes: генерация реалистичных кадров высококачественного видео, Tencent с открытым исходным кодом для генерации видео больших моделей

Похожие статьи

Академическая аллея: arxiv Academic Papers Chinese Translation Version

TableGPT Agent: интеллектуальный инструмент, предназначенный для анализа сложных табличных данных

HeyGen - платформа для создания видео с искусственным интеллектом и поддержкой перевода и дубляжа на несколько языков

Reclaim AI: ИИ-инструмент для управления календарем и отслеживания времени, умный помощник по составлению расписания

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи