Chunkr: универсальный сервис, использующий визуальные модели для сбора документов и интеллектуальной группировки на основе иерархии абзацев текста.
Общее введение
Chunkr - это самостоятельный API, предназначенный для преобразования файлов PDF, PPTX, DOCX и Excel в данные, пригодные для использования в RAG (Retrieval Augmented Generation) и LLM (Large Language Modelling). Разработанный Lumina AI Inc. для создания структурированных данных в форматах HTML и Markdown с использованием передовых визуальных моделей для ввода документов с поддержкой OCR (оптического распознавания символов) и определения ограничивающих рамок, Chunkr предоставляет эффективное решение для обработки документов для широкого спектра потребностей предприятий и разработчиков.

Список функций
- преобразование документов: Поддержка конвертирования файлов PDF, PPTX, DOCX и Excel в данные RAG/LLM.
- Поддержка OCR: Интеграция технологии оптического распознавания символов для автоматической идентификации текстового содержимого в документах.
- Обнаружение пограничного поля: Определение макета документа с помощью визуального моделирования и создание точных ограничительных рамок.
- Структурированный вывод: Генерируйте структурированные форматы HTML и Markdown для удобства последующей обработки и использования.
- самостоятельный хостинг: Поддерживает развертывание Docker и Kubernetes, позволяя пользователям самостоятельно размещать сервисы локально или в облаке.
- Высокая доступность и масштабируемость: Предоставляет конфигурации высокой доступности и руководства по расширению для удовлетворения потребностей приложений корпоративного класса.
Использование помощи
Процесс установки
Быстрый старт Docker Compose
- Необходимые условия установки: Убедитесь, что установлены Docker и Docker Compose.
- склад клонов::
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
- Скопируйте файл конфигурации среды::
cp .env.example .env
- Начальные услуги::
docker compose up -d
- служба доступа::
- Веб-интерфейс: http://localhost:5173
- API: http://localhost:8000
Развертывание производственной среды Kubernetes
- предварительно: Убедитесь, что кластер Kubernetes и kubectl установлены.
- Услуги по развертыванию::
kubectl apply -f kubernetes-manifests/
- Настройка высокой доступности и масштабирования: Справочник
self-deployment.md
документация по настройке и масштабированию высокой доступности.
Руководство по использованию
- Создайте учетную запись и получите ключ API::
- Посетите сайт chunkr.ai, чтобы зарегистрировать аккаунт.
- Войдите в систему, чтобы получить ключ API.
- Создание заданий::
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
- Статус задачи опроса::
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"
Основные функции
- преобразование документов: После загрузки файла выберите модель преобразования и длину целевого блока, и система автоматически обработает и вернет структурированные данные.
- Распознавание OCR: При выборе политики OCR при загрузке файла система автоматически распознает текстовое содержимое документа и генерирует ограничительную рамку.
- Просмотр результатовПросмотр преобразованных структурированных данных через API или веб-интерфейс, поддержка форматов HTML и Markdown.
Chunkr предоставляет подробную документацию и примеры кода, чтобы помочь пользователям быстро начать работу и интегрироваться в существующие системы. Как разработчики, так и бизнес-пользователи могут использовать Chunkr для эффективной обработки и преобразования документов и повышения производительности.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...