Abogen: инструмент для преобразования различных текстовых форматов в аудиокниги

Последние ресурсы по искусственному интеллектуОпубликовано 10 месяцев назад Круг обмена ИИ

69.9K 00

Общее введение

Abogen - это инструмент с открытым исходным кодом, предназначенный для быстрого преобразования файлов ePub, PDF или обычного текста в высококачественный звук. Он использует модель Kokoro-82M для создания естественной, плавной речи и поддерживает одновременное создание субтитров, что делает его подходящим для аудиокниг, дубляжа видео или учебных пособий. Пользователи могут выбирать несколько языков, мужские и женские голоса, настраивать гранулярность субтитров и даже смешивать различные речевые модели для создания уникальных звуковых эффектов. Abogen поддерживает такие аудиоформаты, как WAV, FLAC, MP3 и M4B, прост в использовании и совместим с Windows, Linux и macOS.

Список функций

Поддерживает ввод файлов ePub, PDF и TXT и автоматическое извлечение текста.
Генерация высококачественной естественной речи с помощью модели Kokoro-82M.
Доступны несколько языков и варианты мужского и женского голоса, такие как американский английский, британский английский и другие.
Поддерживает создание субтитров с сегментацией по предложениям, словам или с пользовательской детализацией.
Позволяет смешивать различные речевые модели для создания индивидуальных голосов.
Выходные аудиоформаты включают WAV, FLAC, MP3 и M4B (поддерживаются главы).
Предоставляет встроенный текстовый редактор для удобного прямого ввода или изменения текста.
Поддержка развертывания Docker для упрощения установки и эксплуатации.
Выберите, где сохранить выходной файл, например на рабочем столе или в пользовательской папке.

Использование помощи

Процесс установки

Для установки Abogen требуется ряд зависимостей, включая среду Python и espeak-ng. Ниже приведены подробные шаги:

1. Установите espeak-ng

Посетите страницу с последним выпуском espeak-ng, чтобы загрузить копию для вашей операционной системы. .msi файл (Windows) или установите через менеджер пакетов (Linux/macOS).
Пользователи Windows: запустите загруженный .msi следуйте подсказкам, чтобы завершить установку.
Пользователи Linux: выполнение команд sudo apt-get install espeak-ng(Ubuntu/Debian) или sudo yum install espeak-ng(CentOS).
Пользователи macOS: запустите с помощью Homebrew brew install espeak-ng.

2. Установка Python и PyTorch

Убедитесь, что в вашей системе установлен Python 3.8 или более поздней версии.
Установите PyTorch (рекомендуется использовать GPU NVIDIA для GPU-ускорения):
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
```

Если у вас нет графического процессора NVIDIA, выполните следующую команду, чтобы установить версию для процессора:
```
pip install torch torchvision torchaudio
```

3. Установка Abogen

Выполните следующую команду, чтобы установить Abogen:
```
pip install abogen
```
После завершения установки запустите abogen команда запускает графический интерфейс (GUI).

4. Использование Docker (опционально)

Если вы хотите запускать Abogen через Docker, вы можете упростить управление зависимостями:
- Убедитесь, что Docker установлен.
- Клонирование репозитория Abogen:
```
git clone https://github.com/denizsafak/abogen.git
cd abogen
```
- Создайте образ Docker:
```
docker build --progress plain -t abogen .
```
- Запустите контейнер Docker:
  - Окна:
```
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - Linux:
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
```
  - macOS:
```
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
```
- Посетите Abogen:
  - Доступ через браузер http://localhost:5800.
  - или подключитесь с помощью VNC-клиента localhost:5900.

Основные функции

1. Преобразование текста в аудио

После запуска Abogen откроется графический интерфейс.
Нажмите кнопку "Выбрать файл", чтобы загрузить файл ePub, PDF или TXT, или воспользуйтесь встроенным текстовым редактором для ввода текста.
Выберите язык и голос (например. a_m Указывает на мужской голос на американском английском.b_f (Указывает на женский голос на британском английском).
Настройте параметры субтитров: выберите "Предложение", "Предложение + запятая" или разделение по количеству слов (например, 1 слово, 2 слова).
Нажмите кнопку Generate и дождитесь окончания обработки. Время обработки зависит от размера файла и производительности оборудования (например, текст объемом 3000 символов занимает около 11 секунд на RTX 2060).

2. Индивидуальная речь

В Voice Mixer настройте пропорции различных голосовых моделей, чтобы создать уникальные звуковые эффекты.
Сохраните конфигурацию микса как "голосовой профиль" для удобства повторного использования.
Протестируйте голосовой эффект: нажмите кнопку "Предварительный просмотр", чтобы прослушать сгенерированный звуковой клип.

3. Настройки вывода

Выберите формат аудио: WAV (без потерь), FLAC (со сжатием без потерь), MP3 (универсальный) или M4B (формат аудиокниги с поддержкой глав).
Настройка места сохранения: выберите "Сохранить на рабочем столе", "Сохранить рядом с входным файлом" или пользовательскую папку.
Если требуются субтитры, отметьте пункт "Генерировать субтитры" и выберите формат вывода (например, SRT).

4. режим командной строки

Если возникают проблемы с графическим интерфейсом, его можно запустить из командной строки:
```
abogen --cli
```
В режиме командной строки отображаются подробные сообщения об ошибках, что облегчает поиск и устранение неисправностей.

предостережение

Убедитесь, что входной файл отформатирован правильно, PDF-файлы могут иметь неполное извлечение текста из-за сложной компоновки.
Для ускорения обработки рекомендуется использовать GPU-ускорение, обработка на CPU может быть медленнее.
Если у вас возникнут проблемы, загляните на страницу Issues на GitHub или отправьте новый вопрос для получения помощи.

сценарий применения

Производство аудиокниг
Пользователи могут конвертировать романы, учебники или документы в аудиокниги для удобного прослушивания во время поездок на работу или занятий спортом. Выходной сигнал Abogen M4B поддерживает разбивку на главы для более длинных материалов.
дублирование видео
Создатели контента могут создавать естественные закадровые голоса для видеороликов на YouTube, TikTok или Instagram с синхронизированными субтитрами, чтобы повысить профессионализм своих видео.
Помощь в обучении
Студенты могут конвертировать PDF-учебники или раздаточные материалы в аудиофайлы и объединять их с субтитрами, чтобы помочь в прослушивании и обучении, что подходит для изучающих иностранные языки или слабовидящих.
Производство подкастов
Продюсеры подкастов могут конвертировать сценарии в аудио, быстро генерировать клипы для прослушивания и настраивать стиль голоса в соответствии с тематикой шоу.

QA

Какие форматы файлов поддерживает Abogen?
Abogen поддерживает файлы ePub, PDF и TXT в качестве входных данных и выводит аудиоформаты, включая WAV, FLAC, MP3 и M4B, а также субтитры в формате SRT.
Как повысить точность извлечения текста?
Для файлов PDF рекомендуется использовать документ с простым оформлением. Если извлечение не является точным, перед вводом PDF можно преобразовать его в TXT-файл.
Нужен ли мне графический процессор для работы Abogen?
Это не обязательно, но использование графического процессора NVIDIA может значительно ускорить обработку. CPU тоже будет работать, но медленнее.
Как внести свой код или сообщить о проблеме?
Посетите репозиторий GitHub, отправьте Pull Request, чтобы внести свой код, или сообщите о проблеме на странице Issues с подробной информацией об ошибке.