Инструмент для автоматического просмотра романов и создания многосимвольных аудиокниг

Общее введение

Auto-Audio-Book - это проект с открытым исходным кодом, размещенный на GitHub. Он автоматически собирает информацию о романах с веб-сайтов и преобразует ее в аудиокниги с несколькими голосами персонажей. Разработчик zqq-nuli, написанный на Python 3.10+, в сочетании с большими моделями (такими как Близнецы и CosyVoice2-0.5B) для реализации обработки текста и синтеза речи. Проект не только поддерживает базовую передачу текста в аудио, но и позволяет различать персонажей в романе и назначать разные голоса для создания эффектов, похожих на радиодрамы. Код открыт для публики, и пользователи могут свободно скачивать и изменять его. По состоянию на 24 марта 2025 года проект все еще находится в стадии разработки, графический интерфейс не доведен до конца, но весь процесс может быть завершен через командную строку, что подходит для энтузиастов технологий и производителей аудиокниг.

 

Список функций

  • роман "Ползком: Автоматически загружает содержание глав романов с указанных веб-сайтов.
  • Формирование диалоговых сообщений: Используйте искусственный интеллект для анализа текста и различения персонажей и диалогов.
  • Многосимвольный голос за кадром: Назначьте разные голоса вымышленным персонажам, главному герою второго плана, диктору и случайному дубляжу.
  • Поколение аудио: Преобразование текста в формат MP3 для аудиокниг с поддержкой многопоточного ускорения.
  • Инструменты управления: Предоставляет графический интерфейс для управления данными романов и аудиофайлами.
  • открытый исходный код и расширяемость: Пользователи могут изменять код, добавляя новые функции или оптимизируя эффекты.

 

Использование помощи

Для установки и использования Auto-Audio-Book требуется определенная техническая база. Ниже приведено подробное руководство по установке и эксплуатации, которое поможет вам создать аудиокнигу с нуля.

Процесс установки

  1. Подготовка к защите окружающей среды
    • Установите Python 3.10 или более позднюю версию, загруженную с сайта https://www.python.org/downloads/.
    • монтаж ffmpegДля Windows загрузите с сайта https://ffmpeg.org/download.html, а для Mac используйте brew install ffmpegLinux с sudo apt install ffmpeg.
    • (Необязательно) Установите MongoDB для графического интерфейса управления данными романа, загрузите с сайта https://www.mongodb.com/try/download/community.
    • Чтобы проверить окружение: в командной строке введите python --version ответить пением ffmpeg -versionУбедитесь, что версия отображается правильно.
  2. Код загрузки
    • Клонируйте проект локально с помощью Git:
      git clone https://github.com/zqq-nuli/auto-audio-book.git
      
    • Перейдите в каталог проектов:
      cd auto-audio-book
      
  3. Создание виртуальной среды
    • пользоваться uv Создание виртуальной среды (требуется предварительная установка) uvиспользовать pip install uv):
      uv venv --python 3.10
      
    • Активируйте окружающую среду:
      • Окна:.\.venv\Scripts\activate
      • Mac/Linux:source .venv/bin/activate
  4. Установка зависимостей
    • Установите необходимые библиотеки в виртуальной среде:
      uv add -r requirements.txt
      
    • Если не хватает requirements.txtБиблиотеку ядра можно установить вручную:
      pip install requests gTTS PyPDF2 pymongo
      
  5. Настройка ключа API
    • сделать копию .env.example файл .env::
      copy .env.example .env  # Windows
      cp .env.example .env    # Mac/Linux
      
    • компилятор .env в файле введите ключ API Big Model, например, ключ для Gemini, который можно запросить у соответствующей платформы.

Этапы использования

  1. проползти роман
    • Выберите фиктивный сайт (например, https://m.ilwxs.com/), по умолчанию проект поддерживает незащищенные сайты.
    • Запустите скрипт ползания:
      python app/getBookList.py
      
    • Затем получите список глав и сохраните содержимое:
      python app/getZjList.py
      python app/saveBooks.py
      
  2. Создание диалоговых сообщений
    • Обработайте главы с помощью искусственного интеллекта, чтобы различать персонажей и диалоги:
      python app/saveBookJson.py
      
    • Выходные данные сохраняются в виде файла JSON для последующего дублирования.
  3. Настройка голосов персонажей
    • Запустите сценарий для создания таблицы ролей:
      python app/createUser.py
      
    • Вручную назначьте голоса для главного героя и рассказчика (поддерживаются такие модели, как CosyVoice2-0.5B). Остальные персонажи могут быть назначены случайным образом:
      • Индивидуальные голоса для персонажей с более чем 50 репликами.
      • Менее 50 предложений в голосе рассказчика.
  4. Генерировать аудио
    • Запустите сценарий генерации звука:
      python app/createAudio.py
      
    • Поддерживает многопоточное ускорение, например, 20 потоков:
      python app/createAudio.py --threads 20
      
    • На выходе получается MP3-файл, который сохраняется в директории проекта.
  5. Управление аудио (опционально)
    • Сортировка аудио с помощью инструментов графического интерфейса:
      python gui/gui.py
      
    • Или пакетное удаление записей о Гималаях:
      python gui/gui2.py
      

Примечание по обращению

  • Оптимизация эффективности: Один компьютер может обрабатывать 300 глав за ночь на одном потоке. Тесты показывают, что 5 машин с 20 потоками на каждой могут сгенерировать 2000 глав за 5 часов.
  • обнаружение ошибок: Если вы пропустили какую-то главу, проверьте сеть или повторно запустите сценарий соответствующей главы.
  • Ограничения модели: Модель на основе кремния ограничена IP-адресами и требует перехвата серверов для обеспечения параллелизма на нескольких компьютерах.

Пример процесса

Предположим, вы переводите роман:

  1. Перейдите по ссылке https://m.ilwxs.com/ на роман "Так и так" и сохраняйте главы.
  2. Составьте диалог-сообщение, определив главного героя А и рассказчика.
  3. Конфигурация A с мужским китайским голосом, рассказчик с женским голосом, остальные случайные.
  4. Запустите многопоточную генерацию, чтобы получить chapter1.mp3 и т.д.

После завершения работы его можно загрузить на такие платформы, как Himalaya, а пример готового продукта можно посмотреть на сайте https://www.ximalaya.com/album/88023000.

 

сценарий применения

  1. Производство аудиокниг
    Превращайте веб-романы в многосимвольные аудиокниги и загружайте их на платформы для совместного использования или получения прибыли.
  2. обучающий эксперимент
    Энтузиасты-технари используют его для изучения технологий ползания, искусственного интеллекта и обработки звука.
  3. Личные развлечения
    Превратите свои любимые романы в аудио и слушайте их в любое время и в любом месте.

 

QA

  1. Какие большие модели поддерживаются?
    В настоящее время поддерживаются Gemini и CosyVoice2-0.5B, необходимо самостоятельно подать заявку на получение API-ключа.
  2. Почему некоторые главы не создаются?
    Это может быть перебои в работе сети или сбой в работе ползунка, проверьте журналы и повторно запустите соответствующую главу.
  3. Как улучшить качество звука?
    Модель по умолчанию имеет ограниченный эффект, ее можно заменить другим движком TTS, для этого необходимо изменить код.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...