Инструмент для автоматического просмотра романов и создания многосимвольных аудиокниг
Общее введение
Auto-Audio-Book - это проект с открытым исходным кодом, размещенный на GitHub. Он автоматически собирает информацию о романах с веб-сайтов и преобразует ее в аудиокниги с несколькими голосами персонажей. Разработчик zqq-nuli, написанный на Python 3.10+, в сочетании с большими моделями (такими как Близнецы и CosyVoice2-0.5B) для реализации обработки текста и синтеза речи. Проект не только поддерживает базовую передачу текста в аудио, но и позволяет различать персонажей в романе и назначать разные голоса для создания эффектов, похожих на радиодрамы. Код открыт для публики, и пользователи могут свободно скачивать и изменять его. По состоянию на 24 марта 2025 года проект все еще находится в стадии разработки, графический интерфейс не доведен до конца, но весь процесс может быть завершен через командную строку, что подходит для энтузиастов технологий и производителей аудиокниг.
Список функций
- роман "Ползком: Автоматически загружает содержание глав романов с указанных веб-сайтов.
- Формирование диалоговых сообщений: Используйте искусственный интеллект для анализа текста и различения персонажей и диалогов.
- Многосимвольный голос за кадром: Назначьте разные голоса вымышленным персонажам, главному герою второго плана, диктору и случайному дубляжу.
- Поколение аудио: Преобразование текста в формат MP3 для аудиокниг с поддержкой многопоточного ускорения.
- Инструменты управления: Предоставляет графический интерфейс для управления данными романов и аудиофайлами.
- открытый исходный код и расширяемость: Пользователи могут изменять код, добавляя новые функции или оптимизируя эффекты.
Использование помощи
Для установки и использования Auto-Audio-Book требуется определенная техническая база. Ниже приведено подробное руководство по установке и эксплуатации, которое поможет вам создать аудиокнигу с нуля.
Процесс установки
- Подготовка к защите окружающей среды
- Установите Python 3.10 или более позднюю версию, загруженную с сайта https://www.python.org/downloads/.
- монтаж
ffmpeg
Для Windows загрузите с сайта https://ffmpeg.org/download.html, а для Mac используйтеbrew install ffmpeg
Linux сsudo apt install ffmpeg
. - (Необязательно) Установите MongoDB для графического интерфейса управления данными романа, загрузите с сайта https://www.mongodb.com/try/download/community.
- Чтобы проверить окружение: в командной строке введите
python --version
ответить пениемffmpeg -version
Убедитесь, что версия отображается правильно.
- Код загрузки
- Клонируйте проект локально с помощью Git:
git clone https://github.com/zqq-nuli/auto-audio-book.git
- Перейдите в каталог проектов:
cd auto-audio-book
- Клонируйте проект локально с помощью Git:
- Создание виртуальной среды
- пользоваться
uv
Создание виртуальной среды (требуется предварительная установка)uv
использоватьpip install uv
):uv venv --python 3.10
- Активируйте окружающую среду:
- Окна:
.\.venv\Scripts\activate
- Mac/Linux:
source .venv/bin/activate
- Окна:
- пользоваться
- Установка зависимостей
- Установите необходимые библиотеки в виртуальной среде:
uv add -r requirements.txt
- Если не хватает
requirements.txt
Библиотеку ядра можно установить вручную:pip install requests gTTS PyPDF2 pymongo
- Установите необходимые библиотеки в виртуальной среде:
- Настройка ключа API
- сделать копию
.env.example
файл.env
::copy .env.example .env # Windows cp .env.example .env # Mac/Linux
- компилятор
.env
в файле введите ключ API Big Model, например, ключ для Gemini, который можно запросить у соответствующей платформы.
- сделать копию
Этапы использования
- проползти роман
- Выберите фиктивный сайт (например, https://m.ilwxs.com/), по умолчанию проект поддерживает незащищенные сайты.
- Запустите скрипт ползания:
python app/getBookList.py
- Затем получите список глав и сохраните содержимое:
python app/getZjList.py python app/saveBooks.py
- Создание диалоговых сообщений
- Обработайте главы с помощью искусственного интеллекта, чтобы различать персонажей и диалоги:
python app/saveBookJson.py
- Выходные данные сохраняются в виде файла JSON для последующего дублирования.
- Обработайте главы с помощью искусственного интеллекта, чтобы различать персонажей и диалоги:
- Настройка голосов персонажей
- Запустите сценарий для создания таблицы ролей:
python app/createUser.py
- Вручную назначьте голоса для главного героя и рассказчика (поддерживаются такие модели, как CosyVoice2-0.5B). Остальные персонажи могут быть назначены случайным образом:
- Индивидуальные голоса для персонажей с более чем 50 репликами.
- Менее 50 предложений в голосе рассказчика.
- Запустите сценарий для создания таблицы ролей:
- Генерировать аудио
- Запустите сценарий генерации звука:
python app/createAudio.py
- Поддерживает многопоточное ускорение, например, 20 потоков:
python app/createAudio.py --threads 20
- На выходе получается MP3-файл, который сохраняется в директории проекта.
- Запустите сценарий генерации звука:
- Управление аудио (опционально)
- Сортировка аудио с помощью инструментов графического интерфейса:
python gui/gui.py
- Или пакетное удаление записей о Гималаях:
python gui/gui2.py
- Сортировка аудио с помощью инструментов графического интерфейса:
Примечание по обращению
- Оптимизация эффективности: Один компьютер может обрабатывать 300 глав за ночь на одном потоке. Тесты показывают, что 5 машин с 20 потоками на каждой могут сгенерировать 2000 глав за 5 часов.
- обнаружение ошибок: Если вы пропустили какую-то главу, проверьте сеть или повторно запустите сценарий соответствующей главы.
- Ограничения модели: Модель на основе кремния ограничена IP-адресами и требует перехвата серверов для обеспечения параллелизма на нескольких компьютерах.
Пример процесса
Предположим, вы переводите роман:
- Перейдите по ссылке https://m.ilwxs.com/ на роман "Так и так" и сохраняйте главы.
- Составьте диалог-сообщение, определив главного героя А и рассказчика.
- Конфигурация A с мужским китайским голосом, рассказчик с женским голосом, остальные случайные.
- Запустите многопоточную генерацию, чтобы получить
chapter1.mp3
и т.д.
После завершения работы его можно загрузить на такие платформы, как Himalaya, а пример готового продукта можно посмотреть на сайте https://www.ximalaya.com/album/88023000.
сценарий применения
- Производство аудиокниг
Превращайте веб-романы в многосимвольные аудиокниги и загружайте их на платформы для совместного использования или получения прибыли. - обучающий эксперимент
Энтузиасты-технари используют его для изучения технологий ползания, искусственного интеллекта и обработки звука. - Личные развлечения
Превратите свои любимые романы в аудио и слушайте их в любое время и в любом месте.
QA
- Какие большие модели поддерживаются?
В настоящее время поддерживаются Gemini и CosyVoice2-0.5B, необходимо самостоятельно подать заявку на получение API-ключа. - Почему некоторые главы не создаются?
Это может быть перебои в работе сети или сбой в работе ползунка, проверьте журналы и повторно запустите соответствующую главу. - Как улучшить качество звука?
Модель по умолчанию имеет ограниченный эффект, ее можно заменить другим движком TTS, для этого необходимо изменить код.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...