wdoc: извлечение содержимого и обобщение знаний из массивных документов с множеством источников

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

50.3K 00

Общее введение

wdoc - это мощная система RAG (Retrieval Augmentation Generation), предназначенная для обработки и анализа больших и разнообразных документов. Она способна извлекать информацию из широкого спектра типов документов, включая PDF, веб-страницы, видео с YouTube, аудиофайлы и т. д. wdoc особенно хорошо подходит для обработки большого количества источников информации, что делает ее идеальным инструментом для исследователей, студентов и профессионалов, которым необходимо работать с большими объемами информации. Система использует библиотеку LangChain для обработки документов, поддерживает широкий спектр поставщиков LLM (Large Language Model) и предлагает высокоточные функции поиска и обобщения. wdoc находится в стадии постоянного развития, и мы приветствуем отзывы пользователей и пожелания по функциям.

Список функций

Поддержка нескольких типов файлов: Поддерживает более 15 типов файлов, включая PDF-файлы, веб-страницы, видеоролики YouTube, аудиофайлы и многое другое.
Высокоточный поиск и обобщение: Обеспечивает высокоточный поиск и обобщение документов благодаря встроенному поиску и семантической пакетной обработке.
Поддержка нескольких ЛЛМ: Поддерживается несколько провайдеров LLM, включая локальные модели и частные модели с дополнительными уровнями безопасности.
Дополнительные функции RAG: Слабый LLM используется для фильтрации нерелевантных документов, а сильный LLM - для предоставления точных ответов и объединения ответов с помощью семантической кластеризации и сортировки.
Легко расширяется: Не только инструмент, но и библиотека, которая позволяет пользователям использовать wdoc в других проектах на Python.
Подробная документация и помощьБогатая документация и справочная информация помогут пользователям быстро начать работу.

Использование помощи

монтаж

Для работы wdoc в настоящее время требуется Python версии 3.11. Пожалуйста, убедитесь, что у вас есть нужная версия Python, а затем выполните следующие шаги для его установки:

Для установки используйте pip:
```
pip install -U wdoc
```

или установить определенную ветку git:
```
pip install git+https://github.com/thiswillbeyourgithub/wdoc@dev
```
Рекомендуется установить поддержку pdftotext и fasttext:
```
pip install -U wdoc[pdftotext] wdoc[fasttext]
```

пользоваться

Добавьте необходимый ключ API в качестве переменной окружения:
```
export OPENAI_API_KEY="您的API密钥"
```

Запустите wdoc:

wdoc --task=query --path=您的文档路径

Функции Поток операций

Поиск документов

Используйте wdoc для запроса содержимого документа:

wdoc --task=query --path=您的文档路径 --filetype=pdf --query="查询内容"

Команда загрузит PDF-файл по указанному пути, извлечет его в соответствии с запросом и вернет соответствующие документы.

Сводка документации

Используйте wdoc, чтобы подытожить документ:

wdoc --task=summarize --path=您的文档路径 --filetype=pdf

Команда обобщит указанный путь к PDF-файлу и вернет подробную информацию о содержании документа.

Комбинированные задания

Вы также можете комбинировать задачи запроса и сводки:

wdoc --task=summarize_then_query --path=您的文档路径 --filetype=pdf

Эта команда сначала кратко изложит содержание документа, а затем позволит вам сделать дополнительные запросы по нему.

Дополнительные возможности

wdoc поддерживает множество дополнительных функций, таких как:

Поддержка нескольких типов файлов: Загрузка файлов нескольких типов через рекурсивные пути, связанные файлы и т.д.
Дополнительные функции RAG: Повышение точности поиска с помощью таких методов, как поиск по нескольким запросам и семантическая пакетная обработка.
Местная и частная поддержка LLM: Обеспечение безопасности данных и предотвращение их утечки внешним поставщикам.
Подробная документация и помощь: черезwdoc --helpПолучите дополнительную информацию о том, как его использовать.