Неструктурированные: препроцессинг неструктурированных документов с открытым исходным кодом, инструменты обработки неструктурированных данных

Последние ресурсы по искусственному интеллекту2年前更新 Круг обмена ИИ

73.9K 00

Общее введение

Unstructured-IO предоставляет ряд компонентов с открытым исходным кодом для обработки и предварительной обработки изображений и текстовых документов, таких как PDF, HTML, документы Word и т.д. Основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для приложений с большой языковой моделью (LLM). Основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для приложений с большой языковой моделью (LLM). Модульная функциональность и коннекторы Unstructured-IO образуют единую систему, которая делает процесс ввода и предварительной обработки данных эффективным и адаптируемым к различным платформам.

Список функций

Ввод и предварительная обработка данных
Поддержка нескольких типов документов (PDF, HTML, Word и т. д.)
Модульные функции и разъемы
Предоставляет API с открытым исходным кодом и клиентские библиотеки
Поддержка контейнерного развертывания Docker
Предоставьте бессерверные API для повышения производительности

Использование помощи

Процесс установки

Использование библиотеки Docker Container Runtime Library
- Убедитесь, что Docker установлен.
- Выполните следующую команду, чтобы загрузить и запустить соответствующий образ Docker:
```
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest
docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
```
Установка библиотек из PyPI
- Для установки используйте pip:
```
pip install unstructured
```
Установка местного развития
- Клонируйте репозиторий GitHub:
```
git clone https://github.com/Unstructured-IO/unstructured.git
cd unstructured
pip install -e .
```

Руководство по использованию

Ввод данных
- пользоваться unstructured Библиотека принимает документы:
```
from unstructured.partition.pdf import partition_pdf
document = partition_pdf("example.pdf")
```
Предварительная обработка данных
- Наведите порядок и упорядочьте документы:
```
from unstructured.cleaners.core import clean
cleaned_document = clean(document)
```
Подключение к источникам данных и целям
- Используйте коннектор для передачи данных в целевое место:
```
from unstructured.connectors import send_to_destination
send_to_destination(cleaned_document, destination="s3://bucket-name")
```
Бессерверный API
- Зарегистрируйтесь и получите ключ API:
  - интервью Страница регистрации неструктурированного API.
  - Получите ключ API и начните использовать его:
```
import requests
headers = {"Authorization": "Bearer YOUR_API_KEY"}
response = requests.post("https://api.unstructured.io/process", headers=headers, json={"document": "example.pdf"})
```

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

AlphaClaw - 熵简科技推出的金融投研 AI Agent 工具

Последние ресурсы по искусственному интеллекту

4 недели назад

013K

YouMind: профессиональный помощник для творцов, который извлекает любой материал и помещает его в базу знаний для помощи в написании текстов.

Последние ресурсы по искусственному интеллекту # AI Writing # Поиск знаний и RAG Framework

1 год назад

072K

Цифровые люди Си Линь: предоставление услуг цифровых людей в прямом эфире, видео, диалогов и других многосюжетных приложений

Последние ресурсы по искусственному интеллекту # AI Digital Man

1 год назад

056.2K

Eddie AI: профессиональный инструмент для быстрого редактирования видео с помощью текстовых команд

Последние ресурсы по искусственному интеллекту # AI аудио/видеоредактор

1 год назад

059.7K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Неструктурированные: препроцессинг неструктурированных документов с открытым исходным кодом, инструменты обработки неструктурированных данных

Общее введение

Список функций