Неструктурированные: препроцессинг неструктурированных документов с открытым исходным кодом, инструменты обработки неструктурированных данных
Общее введение
Unstructured-IO предоставляет ряд компонентов с открытым исходным кодом для обработки и предварительной обработки изображений и текстовых документов, таких как PDF, HTML, документы Word и т.д. Основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для приложений с большой языковой моделью (LLM). Основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для приложений с большой языковой моделью (LLM). Модульная функциональность и коннекторы Unstructured-IO образуют единую систему, которая делает процесс ввода и предварительной обработки данных эффективным и адаптируемым к различным платформам.

Список функций
- Ввод и предварительная обработка данных
- Поддержка нескольких типов документов (PDF, HTML, Word и т. д.)
- Модульные функции и разъемы
- Предоставляет API с открытым исходным кодом и клиентские библиотеки
- Поддержка контейнерного развертывания Docker
- Предоставьте бессерверные API для повышения производительности
Использование помощи
Процесс установки
- Использование библиотеки Docker Container Runtime Library
- Убедитесь, что Docker установлен.
- Выполните следующую команду, чтобы загрузить и запустить соответствующий образ Docker:
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
- Установка библиотек из PyPI
- Для установки используйте pip:
pip install unstructured
- Для установки используйте pip:
- Установка местного развития
- Клонируйте репозиторий GitHub:
git clone https://github.com/Unstructured-IO/unstructured.git cd unstructured pip install -e .
- Клонируйте репозиторий GitHub:
Руководство по использованию
- Ввод данных
- пользоваться
unstructured
Библиотека принимает документы:from unstructured.partition.pdf import partition_pdf document = partition_pdf("example.pdf")
- пользоваться
- Предварительная обработка данных
- Наведите порядок и упорядочьте документы:
from unstructured.cleaners.core import clean cleaned_document = clean(document)
- Наведите порядок и упорядочьте документы:
- Подключение к источникам данных и целям
- Используйте коннектор для передачи данных в целевое место:
from unstructured.connectors import send_to_destination send_to_destination(cleaned_document, destination="s3://bucket-name")
- Используйте коннектор для передачи данных в целевое место:
- Бессерверный API
- Зарегистрируйтесь и получите ключ API:
- интервью Страница регистрации неструктурированного API.
- Получите ключ API и начните использовать его:
import requests headers = {"Authorization": "Bearer YOUR_API_KEY"} response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
- Зарегистрируйтесь и получите ключ API:
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...