Chunkr: универсальный сервис, использующий визуальные модели для сбора документов и интеллектуальной группировки на основе иерархии абзацев текста.

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

55.5K 00

Общее введение

Chunkr - это самостоятельный API, предназначенный для преобразования файлов PDF, PPTX, DOCX и Excel в данные, пригодные для использования в RAG (Retrieval Augmented Generation) и LLM (Large Language Modelling). Разработанный Lumina AI Inc. для создания структурированных данных в форматах HTML и Markdown с использованием передовых визуальных моделей для ввода документов с поддержкой OCR (оптического распознавания символов) и определения ограничивающих рамок, Chunkr предоставляет эффективное решение для обработки документов для широкого спектра потребностей предприятий и разработчиков.

Список функций

преобразование документов: Поддержка конвертирования файлов PDF, PPTX, DOCX и Excel в данные RAG/LLM.
Поддержка OCR: Интеграция технологии оптического распознавания символов для автоматической идентификации текстового содержимого в документах.
Обнаружение пограничного поля: Определение макета документа с помощью визуального моделирования и создание точных ограничительных рамок.
Структурированный вывод: Генерируйте структурированные форматы HTML и Markdown для удобства последующей обработки и использования.
самостоятельный хостинг: Поддерживает развертывание Docker и Kubernetes, позволяя пользователям самостоятельно размещать сервисы локально или в облаке.
Высокая доступность и масштабируемость: Предоставляет конфигурации высокой доступности и руководства по расширению для удовлетворения потребностей приложений корпоративного класса.

Использование помощи

Процесс установки

Быстрый старт Docker Compose

Необходимые условия установки: Убедитесь, что установлены Docker и Docker Compose.
склад клонов::

   git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr

Скопируйте файл конфигурации среды::

   cp .env.example .env

Начальные услуги::

   docker compose up -d

служба доступа::
- Веб-интерфейс: http://localhost:5173
- API: http://localhost:8000

Развертывание производственной среды Kubernetes

предварительно: Убедитесь, что кластер Kubernetes и kubectl установлены.
Услуги по развертыванию::

   kubectl apply -f kubernetes-manifests/

Настройка высокой доступности и масштабирования: Справочник self-deployment.md документация по настройке и масштабированию высокой доступности.

Руководство по использованию

Создайте учетную запись и получите ключ API::
- Посетите сайт chunkr.ai, чтобы зарегистрировать аккаунт.
- Войдите в систему, чтобы получить ключ API.
Создание заданий::

   curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"

Статус задачи опроса::

   curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

Основные функции

преобразование документов: После загрузки файла выберите модель преобразования и длину целевого блока, и система автоматически обработает и вернет структурированные данные.
Распознавание OCR: При выборе политики OCR при загрузке файла система автоматически распознает текстовое содержимое документа и генерирует ограничительную рамку.
Просмотр результатовПросмотр преобразованных структурированных данных через API или веб-интерфейс, поддержка форматов HTML и Markdown.

Chunkr предоставляет подробную документацию и примеры кода, чтобы помочь пользователям быстро начать работу и интегрироваться в существующие системы. Как разработчики, так и бизнес-пользователи могут использовать Chunkr для эффективной обработки и преобразования документов и повышения производительности.