Инструмент для автоматического просмотра романов и создания многосимвольных аудиокниг

Последние ресурсы по искусственному интеллектуОпубликовано 11 месяцев назад Круг обмена ИИ

57.4K 00

Общее введение

Auto-Audio-Book - это проект с открытым исходным кодом, размещенный на GitHub. Он автоматически собирает информацию о романах с веб-сайтов и преобразует ее в аудиокниги с несколькими голосами персонажей. Разработчик zqq-nuli, написанный на Python 3.10+, в сочетании с большими моделями (такими как Близнецы и CosyVoice2-0.5B) для реализации обработки текста и синтеза речи. Проект не только поддерживает базовую передачу текста в аудио, но и позволяет различать персонажей в романе и назначать разные голоса для создания эффектов, похожих на радиодрамы. Код открыт для публики, и пользователи могут свободно скачивать и изменять его. По состоянию на 24 марта 2025 года проект все еще находится в стадии разработки, графический интерфейс не доведен до конца, но весь процесс может быть завершен через командную строку, что подходит для энтузиастов технологий и производителей аудиокниг.

Список функций

роман "Ползком: Автоматически загружает содержание глав романов с указанных веб-сайтов.
Формирование диалоговых сообщений: Используйте искусственный интеллект для анализа текста и различения персонажей и диалогов.
Многосимвольный голос за кадром: Назначьте разные голоса вымышленным персонажам, главному герою второго плана, диктору и случайному дубляжу.
Поколение аудио: Преобразование текста в формат MP3 для аудиокниг с поддержкой многопоточного ускорения.
Инструменты управления: Предоставляет графический интерфейс для управления данными романов и аудиофайлами.
открытый исходный код и расширяемость: Пользователи могут изменять код, добавляя новые функции или оптимизируя эффекты.

Использование помощи

Для установки и использования Auto-Audio-Book требуется определенная техническая база. Ниже приведено подробное руководство по установке и эксплуатации, которое поможет вам создать аудиокнигу с нуля.

Процесс установки

Подготовка к защите окружающей среды
- Установите Python 3.10 или более позднюю версию, загруженную с сайта https://www.python.org/downloads/.
- монтаж ffmpegДля Windows загрузите с сайта https://ffmpeg.org/download.html, а для Mac используйте brew install ffmpegLinux с sudo apt install ffmpeg.
- (Необязательно) Установите MongoDB для графического интерфейса управления данными романа, загрузите с сайта https://www.mongodb.com/try/download/community.
- Чтобы проверить окружение: в командной строке введите python --version ответить пением ffmpeg -versionУбедитесь, что версия отображается правильно.
Код загрузки
- Клонируйте проект локально с помощью Git:
```
git clone https://github.com/zqq-nuli/auto-audio-book.git
```
- Перейдите в каталог проектов:
```
cd auto-audio-book
```
Создание виртуальной среды
- пользоваться uv Создание виртуальной среды (требуется предварительная установка) uvиспользовать pip install uv):
```
uv venv --python 3.10
```
- Активируйте окружающую среду:
  - Окна:.\.venv\Scripts\activate
  - Mac/Linux:source .venv/bin/activate
Установка зависимостей
- Установите необходимые библиотеки в виртуальной среде:
```
uv add -r requirements.txt
```
- Если не хватает requirements.txtБиблиотеку ядра можно установить вручную:
```
pip install requests gTTS PyPDF2 pymongo
```
Настройка ключа API
- сделать копию .env.example файл .env::
```
copy .env.example .env  # Windows
cp .env.example .env    # Mac/Linux
```
- компилятор .env в файле введите ключ API Big Model, например, ключ для Gemini, который можно запросить у соответствующей платформы.

Этапы использования

проползти роман
- Выберите фиктивный сайт (например, https://m.ilwxs.com/), по умолчанию проект поддерживает незащищенные сайты.
- Запустите скрипт ползания:
```
python app/getBookList.py
```
- Затем получите список глав и сохраните содержимое:
```
python app/getZjList.py
python app/saveBooks.py
```
Создание диалоговых сообщений
- Обработайте главы с помощью искусственного интеллекта, чтобы различать персонажей и диалоги:
```
python app/saveBookJson.py
```
- Выходные данные сохраняются в виде файла JSON для последующего дублирования.
Настройка голосов персонажей
- Запустите сценарий для создания таблицы ролей:
```
python app/createUser.py
```
- Вручную назначьте голоса для главного героя и рассказчика (поддерживаются такие модели, как CosyVoice2-0.5B). Остальные персонажи могут быть назначены случайным образом:
  - Индивидуальные голоса для персонажей с более чем 50 репликами.
  - Менее 50 предложений в голосе рассказчика.
Генерировать аудио
- Запустите сценарий генерации звука:
```
python app/createAudio.py
```
- Поддерживает многопоточное ускорение, например, 20 потоков:
```
python app/createAudio.py --threads 20
```
- На выходе получается MP3-файл, который сохраняется в директории проекта.
Управление аудио (опционально)
- Сортировка аудио с помощью инструментов графического интерфейса:
```
python gui/gui.py
```
- Или пакетное удаление записей о Гималаях:
```
python gui/gui2.py
```

Примечание по обращению

Оптимизация эффективности: Один компьютер может обрабатывать 300 глав за ночь на одном потоке. Тесты показывают, что 5 машин с 20 потоками на каждой могут сгенерировать 2000 глав за 5 часов.
обнаружение ошибок: Если вы пропустили какую-то главу, проверьте сеть или повторно запустите сценарий соответствующей главы.
Ограничения модели: Модель на основе кремния ограничена IP-адресами и требует перехвата серверов для обеспечения параллелизма на нескольких компьютерах.

Пример процесса

Предположим, вы переводите роман:

Перейдите по ссылке https://m.ilwxs.com/ на роман "Так и так" и сохраняйте главы.
Составьте диалог-сообщение, определив главного героя А и рассказчика.
Конфигурация A с мужским китайским голосом, рассказчик с женским голосом, остальные случайные.
Запустите многопоточную генерацию, чтобы получить chapter1.mp3 и т.д.

После завершения работы его можно загрузить на такие платформы, как Himalaya, а пример готового продукта можно посмотреть на сайте https://www.ximalaya.com/album/88023000.

сценарий применения

Производство аудиокниг
Превращайте веб-романы в многосимвольные аудиокниги и загружайте их на платформы для совместного использования или получения прибыли.
обучающий эксперимент
Энтузиасты-технари используют его для изучения технологий ползания, искусственного интеллекта и обработки звука.
Личные развлечения
Превратите свои любимые романы в аудио и слушайте их в любое время и в любом месте.

QA

Какие большие модели поддерживаются?
В настоящее время поддерживаются Gemini и CosyVoice2-0.5B, необходимо самостоятельно подать заявку на получение API-ключа.
Почему некоторые главы не создаются?
Это может быть перебои в работе сети или сбой в работе ползунка, проверьте журналы и повторно запустите соответствующую главу.
Как улучшить качество звука?
Модель по умолчанию имеет ограниченный эффект, ее можно заменить другим движком TTS, для этого необходимо изменить код.

Последние ресурсы по искусственному интеллекту # AI Side Hustle Money Making Project # AI Java Open Source Projecct

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Trieve: облачная инфраструктура RAG с полным спектром услуг, обеспечивающая поиск, рекомендации и аналитику

Последние ресурсы по искусственному интеллекту # AI Open Services # Извлечение и очистка документов

1 год назад

055K

AutoGPT: интеллектуальная платформа для автоматизации рабочих процессов и автономного выполнения задач

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Low-code workflow # Система разработки интеллектуального тела

1 год назад

052.8K

eSearch: многофункциональный кросс-платформенный инструмент OCR, интегрированный поиск | перевод | карта поиска | запись экрана и другие функции.

Последние ресурсы по искусственному интеллекту # OCR

1 год назад

049.8K

Полнокровный дистилляционный набор данных DeepSeek-R1 на китайской основе, поддерживает китайский дистилляционный набор данных SFT R1

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Тонкая настройка крупной модели

1 год назад

048.1K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Инструмент для автоматического просмотра романов и создания многосимвольных аудиокниг

Общее введение

Список функций