Неструктурированные: препроцессинг неструктурированных документов с открытым исходным кодом, инструменты обработки неструктурированных данных

Общее введение

Unstructured-IO предоставляет ряд компонентов с открытым исходным кодом для обработки и предварительной обработки изображений и текстовых документов, таких как PDF, HTML, документы Word и т.д. Основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для приложений с большой языковой моделью (LLM). Основная цель - упростить и оптимизировать рабочие процессы обработки данных, особенно для приложений с большой языковой моделью (LLM). Модульная функциональность и коннекторы Unstructured-IO образуют единую систему, которая делает процесс ввода и предварительной обработки данных эффективным и адаптируемым к различным платформам.

Unstructured:开源预处理非结构化文档,无结构数据处理的利器

 

 

Список функций

  • Ввод и предварительная обработка данных
  • Поддержка нескольких типов документов (PDF, HTML, Word и т. д.)
  • Модульные функции и разъемы
  • Предоставляет API с открытым исходным кодом и клиентские библиотеки
  • Поддержка контейнерного развертывания Docker
  • Предоставьте бессерверные API для повышения производительности

 

 

Использование помощи

Процесс установки

  1. Использование библиотеки Docker Container Runtime Library
    • Убедитесь, что Docker установлен.
    • Выполните следующую команду, чтобы загрузить и запустить соответствующий образ Docker:
      docker pull downloads.unstructured.io/unstructured-io/unstructured:latest
      docker run -it --rm downloads.unstructured.io/unstructured-io/unstructured:latest
      
  2. Установка библиотек из PyPI
    • Для установки используйте pip:
      pip install unstructured
      
  3. Установка местного развития
    • Клонируйте репозиторий GitHub:
      git clone https://github.com/Unstructured-IO/unstructured.git
      cd unstructured
      pip install -e .
      

 

Руководство по использованию

  1. Ввод данных
    • пользоваться unstructured Библиотека принимает документы:
      from unstructured.partition.pdf import partition_pdf
      document = partition_pdf("example.pdf")
      
  2. Предварительная обработка данных
    • Наведите порядок и упорядочьте документы:
      from unstructured.cleaners.core import clean
      cleaned_document = clean(document)
      
  3. Подключение к источникам данных и целям
    • Используйте коннектор для передачи данных в целевое место:
      from unstructured.connectors import send_to_destination
      send_to_destination(cleaned_document, destination="s3://bucket-name")
      
  4. Бессерверный API
    • Зарегистрируйтесь и получите ключ API:
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...