wdoc: извлечение содержимого и обобщение знаний из массивных документов с множеством источников

Общее введение

wdoc - это мощная система RAG (Retrieval Augmentation Generation), предназначенная для обработки и анализа больших и разнообразных документов. Она способна извлекать информацию из широкого спектра типов документов, включая PDF, веб-страницы, видео с YouTube, аудиофайлы и т. д. wdoc особенно хорошо подходит для обработки большого количества источников информации, что делает ее идеальным инструментом для исследователей, студентов и профессионалов, которым необходимо работать с большими объемами информации. Система использует библиотеку LangChain для обработки документов, поддерживает широкий спектр поставщиков LLM (Large Language Model) и предлагает высокоточные функции поиска и обобщения. wdoc находится в стадии постоянного развития, и мы приветствуем отзывы пользователей и пожелания по функциям.

wdoc:从海量、多源文档中检索内容并总结知识

 

Список функций

  • Поддержка нескольких типов файлов: Поддерживает более 15 типов файлов, включая PDF-файлы, веб-страницы, видеоролики YouTube, аудиофайлы и многое другое.
  • Высокоточный поиск и обобщение: Обеспечивает высокоточный поиск и обобщение документов благодаря встроенному поиску и семантической пакетной обработке.
  • Поддержка нескольких ЛЛМ: Поддерживается несколько провайдеров LLM, включая локальные модели и частные модели с дополнительными уровнями безопасности.
  • Дополнительные функции RAG: Слабый LLM используется для фильтрации нерелевантных документов, а сильный LLM - для предоставления точных ответов и объединения ответов с помощью семантической кластеризации и сортировки.
  • Легко расширяется: Не только инструмент, но и библиотека, которая позволяет пользователям использовать wdoc в других проектах на Python.
  • Подробная документация и помощьБогатая документация и справочная информация помогут пользователям быстро начать работу.

 

Использование помощи

монтаж

Для работы wdoc в настоящее время требуется Python версии 3.11. Пожалуйста, убедитесь, что у вас есть нужная версия Python, а затем выполните следующие шаги для его установки:

  1. Для установки используйте pip:
    pip install -U wdoc
  1. или установить определенную ветку git:
    pip install git+https://github.com/thiswillbeyourgithub/wdoc@dev
    
  2. Рекомендуется установить поддержку pdftotext и fasttext:
    pip install -U wdoc[pdftotext] wdoc[fasttext]
    

пользоваться

  1. Добавьте необходимый ключ API в качестве переменной окружения:
    export OPENAI_API_KEY="您的API密钥"
    
  2. Запустите wdoc:
    wdoc --task=query --path=您的文档路径
    

Функции Поток операций

Поиск документов

Используйте wdoc для запроса содержимого документа:

wdoc --task=query --path=您的文档路径 --filetype=pdf --query="查询内容"

Команда загрузит PDF-файл по указанному пути, извлечет его в соответствии с запросом и вернет соответствующие документы.

Сводка документации

Используйте wdoc, чтобы подытожить документ:

wdoc --task=summarize --path=您的文档路径 --filetype=pdf

Команда обобщит указанный путь к PDF-файлу и вернет подробную информацию о содержании документа.

Комбинированные задания

Вы также можете комбинировать задачи запроса и сводки:

wdoc --task=summarize_then_query --path=您的文档路径 --filetype=pdf

Эта команда сначала кратко изложит содержание документа, а затем позволит вам сделать дополнительные запросы по нему.

Дополнительные возможности

wdoc поддерживает множество дополнительных функций, таких как:

  • Поддержка нескольких типов файлов: Загрузка файлов нескольких типов через рекурсивные пути, связанные файлы и т.д.
  • Дополнительные функции RAG: Повышение точности поиска с помощью таких методов, как поиск по нескольким запросам и семантическая пакетная обработка.
  • Местная и частная поддержка LLM: Обеспечение безопасности данных и предотвращение их утечки внешним поставщикам.
  • Подробная документация и помощь: черезwdoc --helpПолучите дополнительную информацию о том, как его использовать.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...