Chunkr: универсальный сервис, использующий визуальные модели для сбора документов и интеллектуальной группировки на основе иерархии абзацев текста.

Общее введение

Chunkr - это самостоятельный API, предназначенный для преобразования файлов PDF, PPTX, DOCX и Excel в данные, пригодные для использования в RAG (Retrieval Augmented Generation) и LLM (Large Language Modelling). Разработанный Lumina AI Inc. для создания структурированных данных в форматах HTML и Markdown с использованием передовых визуальных моделей для ввода документов с поддержкой OCR (оптического распознавания символов) и определения ограничивающих рамок, Chunkr предоставляет эффективное решение для обработки документов для широкого спектра потребностей предприятий и разработчиков.

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

 

Список функций

  • преобразование документов: Поддержка конвертирования файлов PDF, PPTX, DOCX и Excel в данные RAG/LLM.
  • Поддержка OCR: Интеграция технологии оптического распознавания символов для автоматической идентификации текстового содержимого в документах.
  • Обнаружение пограничного поля: Определение макета документа с помощью визуального моделирования и создание точных ограничительных рамок.
  • Структурированный вывод: Генерируйте структурированные форматы HTML и Markdown для удобства последующей обработки и использования.
  • самостоятельный хостинг: Поддерживает развертывание Docker и Kubernetes, позволяя пользователям самостоятельно размещать сервисы локально или в облаке.
  • Высокая доступность и масштабируемость: Предоставляет конфигурации высокой доступности и руководства по расширению для удовлетворения потребностей приложений корпоративного класса.

 

Использование помощи

Процесс установки

Быстрый старт Docker Compose

  1. Необходимые условия установки: Убедитесь, что установлены Docker и Docker Compose.
  2. склад клонов::
   git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
  1. Скопируйте файл конфигурации среды::
   cp .env.example .env
  1. Начальные услуги::
   docker compose up -d
  1. служба доступа::
    • Веб-интерфейс: http://localhost:5173
    • API: http://localhost:8000

Развертывание производственной среды Kubernetes

  1. предварительно: Убедитесь, что кластер Kubernetes и kubectl установлены.
  2. Услуги по развертыванию::
   kubectl apply -f kubernetes-manifests/
  1. Настройка высокой доступности и масштабирования: Справочник self-deployment.md документация по настройке и масштабированию высокой доступности.

Руководство по использованию

  1. Создайте учетную запись и получите ключ API::
    • Посетите сайт chunkr.ai, чтобы зарегистрировать аккаунт.
    • Войдите в систему, чтобы получить ключ API.
  2. Создание заданий::
   curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
  1. Статус задачи опроса::
   curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

Основные функции

  • преобразование документов: После загрузки файла выберите модель преобразования и длину целевого блока, и система автоматически обработает и вернет структурированные данные.
  • Распознавание OCR: При выборе политики OCR при загрузке файла система автоматически распознает текстовое содержимое документа и генерирует ограничительную рамку.
  • Просмотр результатовПросмотр преобразованных структурированных данных через API или веб-интерфейс, поддержка форматов HTML и Markdown.

Chunkr предоставляет подробную документацию и примеры кода, чтобы помочь пользователям быстро начать работу и интегрироваться в существующие системы. Как разработчики, так и бизнес-пользователи могут использовать Chunkr для эффективной обработки и преобразования документов и повышения производительности.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...