Abogen: инструмент для преобразования различных текстовых форматов в аудиокниги
Общее введение
Abogen - это инструмент с открытым исходным кодом, предназначенный для быстрого преобразования файлов ePub, PDF или обычного текста в высококачественный звук. Он использует модель Kokoro-82M для создания естественной, плавной речи и поддерживает одновременное создание субтитров, что делает его подходящим для аудиокниг, дубляжа видео или учебных пособий. Пользователи могут выбирать несколько языков, мужские и женские голоса, настраивать гранулярность субтитров и даже смешивать различные речевые модели для создания уникальных звуковых эффектов. Abogen поддерживает такие аудиоформаты, как WAV, FLAC, MP3 и M4B, прост в использовании и совместим с Windows, Linux и macOS.

Список функций
- Поддерживает ввод файлов ePub, PDF и TXT и автоматическое извлечение текста.
- Генерация высококачественной естественной речи с помощью модели Kokoro-82M.
- Доступны несколько языков и варианты мужского и женского голоса, такие как американский английский, британский английский и другие.
- Поддерживает создание субтитров с сегментацией по предложениям, словам или с пользовательской детализацией.
- Позволяет смешивать различные речевые модели для создания индивидуальных голосов.
- Выходные аудиоформаты включают WAV, FLAC, MP3 и M4B (поддерживаются главы).
- Предоставляет встроенный текстовый редактор для удобного прямого ввода или изменения текста.
- Поддержка развертывания Docker для упрощения установки и эксплуатации.
- Выберите, где сохранить выходной файл, например на рабочем столе или в пользовательской папке.
Использование помощи
Процесс установки
Для установки Abogen требуется ряд зависимостей, включая среду Python и espeak-ng. Ниже приведены подробные шаги:
1. Установите espeak-ng
- Посетите страницу с последним выпуском espeak-ng, чтобы загрузить копию для вашей операционной системы.
.msi
файл (Windows) или установите через менеджер пакетов (Linux/macOS). - Пользователи Windows: запустите загруженный
.msi
следуйте подсказкам, чтобы завершить установку. - Пользователи Linux: выполнение команд
sudo apt-get install espeak-ng
(Ubuntu/Debian) илиsudo yum install espeak-ng
(CentOS). - Пользователи macOS: запустите с помощью Homebrew
brew install espeak-ng
.
2. Установка Python и PyTorch
- Убедитесь, что в вашей системе установлен Python 3.8 или более поздней версии.
- Установите PyTorch (рекомендуется использовать GPU NVIDIA для GPU-ускорения):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
- Если у вас нет графического процессора NVIDIA, выполните следующую команду, чтобы установить версию для процессора:
pip install torch torchvision torchaudio
3. Установка Abogen
- Выполните следующую команду, чтобы установить Abogen:
pip install abogen
- После завершения установки запустите
abogen
команда запускает графический интерфейс (GUI).
4. Использование Docker (опционально)
- Если вы хотите запускать Abogen через Docker, вы можете упростить управление зависимостями:
- Убедитесь, что Docker установлен.
- Клонирование репозитория Abogen:
git clone https://github.com/denizsafak/abogen.git cd abogen
- Создайте образ Docker:
docker build --progress plain -t abogen .
- Запустите контейнер Docker:
- Окна:
docker run --name abogen -v %CD%:/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- Linux:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 --gpus all abogen
- macOS:
docker run --name abogen -v $(pwd):/shared -p 5800:5800 -p 5900:5900 abogen
- Окна:
- Посетите Abogen:
- Доступ через браузер
http://localhost:5800
. - или подключитесь с помощью VNC-клиента
localhost:5900
.
- Доступ через браузер
Основные функции
1. Преобразование текста в аудио
- После запуска Abogen откроется графический интерфейс.
- Нажмите кнопку "Выбрать файл", чтобы загрузить файл ePub, PDF или TXT, или воспользуйтесь встроенным текстовым редактором для ввода текста.
- Выберите язык и голос (например.
a_m
Указывает на мужской голос на американском английском.b_f
(Указывает на женский голос на британском английском). - Настройте параметры субтитров: выберите "Предложение", "Предложение + запятая" или разделение по количеству слов (например, 1 слово, 2 слова).
- Нажмите кнопку Generate и дождитесь окончания обработки. Время обработки зависит от размера файла и производительности оборудования (например, текст объемом 3000 символов занимает около 11 секунд на RTX 2060).
2. Индивидуальная речь
- В Voice Mixer настройте пропорции различных голосовых моделей, чтобы создать уникальные звуковые эффекты.
- Сохраните конфигурацию микса как "голосовой профиль" для удобства повторного использования.
- Протестируйте голосовой эффект: нажмите кнопку "Предварительный просмотр", чтобы прослушать сгенерированный звуковой клип.
3. Настройки вывода
- Выберите формат аудио: WAV (без потерь), FLAC (со сжатием без потерь), MP3 (универсальный) или M4B (формат аудиокниги с поддержкой глав).
- Настройка места сохранения: выберите "Сохранить на рабочем столе", "Сохранить рядом с входным файлом" или пользовательскую папку.
- Если требуются субтитры, отметьте пункт "Генерировать субтитры" и выберите формат вывода (например, SRT).
4. режим командной строки
- Если возникают проблемы с графическим интерфейсом, его можно запустить из командной строки:
abogen --cli
- В режиме командной строки отображаются подробные сообщения об ошибках, что облегчает поиск и устранение неисправностей.
предостережение
- Убедитесь, что входной файл отформатирован правильно, PDF-файлы могут иметь неполное извлечение текста из-за сложной компоновки.
- Для ускорения обработки рекомендуется использовать GPU-ускорение, обработка на CPU может быть медленнее.
- Если у вас возникнут проблемы, загляните на страницу Issues на GitHub или отправьте новый вопрос для получения помощи.
сценарий применения
- Производство аудиокниг
Пользователи могут конвертировать романы, учебники или документы в аудиокниги для удобного прослушивания во время поездок на работу или занятий спортом. Выходной сигнал Abogen M4B поддерживает разбивку на главы для более длинных материалов. - дублирование видео
Создатели контента могут создавать естественные закадровые голоса для видеороликов на YouTube, TikTok или Instagram с синхронизированными субтитрами, чтобы повысить профессионализм своих видео. - Помощь в обучении
Студенты могут конвертировать PDF-учебники или раздаточные материалы в аудиофайлы и объединять их с субтитрами, чтобы помочь в прослушивании и обучении, что подходит для изучающих иностранные языки или слабовидящих. - Производство подкастов
Продюсеры подкастов могут конвертировать сценарии в аудио, быстро генерировать клипы для прослушивания и настраивать стиль голоса в соответствии с тематикой шоу.
QA
- Какие форматы файлов поддерживает Abogen?
Abogen поддерживает файлы ePub, PDF и TXT в качестве входных данных и выводит аудиоформаты, включая WAV, FLAC, MP3 и M4B, а также субтитры в формате SRT. - Как повысить точность извлечения текста?
Для файлов PDF рекомендуется использовать документ с простым оформлением. Если извлечение не является точным, перед вводом PDF можно преобразовать его в TXT-файл. - Нужен ли мне графический процессор для работы Abogen?
Это не обязательно, но использование графического процессора NVIDIA может значительно ускорить обработку. CPU тоже будет работать, но медленнее. - Как внести свой код или сообщить о проблеме?
Посетите репозиторий GitHub, отправьте Pull Request, чтобы внести свой код, или сообщите о проблеме на странице Issues с подробной информацией об ошибке.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...