Seed-VC: поддерживает преобразование речи и песен в реальном времени с меньшим количеством сэмплов
Общее введение
Seed-VC - это проект с открытым исходным кодом на GitHub, разработанный компанией Plachtaa. Он может использовать от 1 до 30 секунд эталонного аудио для быстрого преобразования голоса или песни без дополнительного обучения. Проект поддерживает преобразование голоса в реальном времени, задержка составляет всего 400 миллисекунд или около того, что подходит для онлайн-встреч, игр или живого использования. Seed-VC обеспечивает три режима: преобразование голоса (VC), преобразование песен (SVC) и преобразование в реальном времени. Он использует Шепот и BigVGAN и другие технологии для обеспечения чистого звука. Код бесплатен и открыт для публики, пользователи могут скачать и собрать его локально. Официальные обновления, подробная документация и активная поддержка сообщества.

Список функций
- Поддержка преобразования с нулевой выборкой: имитируйте целевой голос или песню с помощью короткого аудио.
- Обработка голоса в реальном времени: голос мгновенно меняется на заданный тон после ввода микрофона.
- Преобразование песен: преобразуйте любую песню в голос указанного исполнителя.
- Регулировка длины звука: ускоряйте или замедляйте речь, чтобы контролировать темп.
- Регулировка высоты тона: автоматическая или ручная регулировка высоты тона в соответствии с заданным тоном.
- Работа с веб-интерфейсом: обеспечивает простой графический интерфейс для удобства использования.
- Поддержка индивидуального обучения: оптимизируйте конкретные звуки с помощью небольшого количества данных.
- Открытый исходный код: изменяемые пользователем или обновляемые функции.
Использование помощи
Процесс установки
Чтобы использовать Seed-VC локально, необходимо сначала установить среду. Ниже приведены подробные шаги для Windows, Mac (с чипами серии M) или Linux.
- Подготовка среды
- Установите Python 3.10, просто скачайте его с официального сайта.
- Чтобы установить Git, найдите "Git for Windows" для пользователей Windows или brew install git для Mac.
- Пользователям GPU необходимо установить CUDA 12.4 и соответствующие драйверы, CPU также может работать, но медленнее.
- Чтобы установить FFmpeg для обработки звука, загрузите его с официального сайта для Windows, установите ffmpeg с помощью brew для Mac и установите его с помощью менеджера пакетов для Linux.
- Код загрузки
- Откройте командную строку (CMD или Anaconda Prompt для Windows, Terminal для Mac/Linux).
- Введите git clone https://github.com/Plachtaa/seed-vc.git, чтобы загрузить проект.
- Перейдите в каталог: cd seed-vc .
- Настройка виртуальной среды
- Введите python -m venv venv, чтобы создать автономное окружение.
- Активируйте окружающую среду:
- Windows: venv\Scripts\activate
- Mac/Linux: source venv/bin/activate
- См. (venv) для успеха.
- Установка зависимостей
- Windows/Linux Введите pip install -r requirements.txt.
- Серия Mac M введите pip install -r requirements-mac.txt .
- Добавьте зеркалирование для решения сетевых проблем: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
- программа бега
- Преобразование голоса: python app_vc.py
- Преобразование песни: python app_svc.py
- Преобразование в реальном времени: python real-time-gui.py
- После запуска браузер заходит на сайт http://localhost:7860, чтобы воспользоваться интерфейсом.
Основные функции
1. преобразование голоса (VC)
- перейти::
- Запустите python app_vc.py и откройте браузер на http://localhost:7860.
- Загрузите исходное аудио (Source Audio) и опорное аудио (Reference Audio, 1-30 секунд).
- Установите шаг диффузии, по умолчанию 25, для лучшего качества звука установите 30-50.
- Регулировка длины, меньше 1 - ускорение, больше 1 - замедление.
- Нажмите кнопку Отправить, подождите несколько секунд и загрузите результаты преобразования.
- принимать к сведению::
- При первом запуске будет автоматически загружена модель seed-uvit-whisper-small-wavenet.
- Опорный звук обрывается через 30 секунд.
2. Преобразование голоса песни (SVC)
- перейти::
- Запустите файл python app_svc.py, чтобы открыть веб-интерфейс.
- Загрузите аудиозапись песни и аудиозапись с референсом певца.
- Отметьте f0-условие, чтобы сохранить высоту тона песни.
- Дополнительная функция auto-f0-adjust Автоматически настраивает высоту тона.
- Установите число шагов диффузии на 30-50 и нажмите кнопку Отправить.
- изысканность::
- Для достижения наилучших результатов используйте чистый и без фоновых шумов эталонный звук.
- Модели по умолчанию загружают seed-uvit-whisper-base.
3. конверсия в реальном времени
- перейти::
- Запустите python real-time-gui.py, чтобы открыть интерфейс.
- Загрузите эталонный звук и подключите микрофон.
- Параметры настройки: ступени диффузии 4-10, время блокировки 0,18 сек.
- Нажмите "Старт", и голос изменится в реальном времени во время речи.
- Используйте VB-CABLE, чтобы направить выход на виртуальный микрофон.
- запрос::
- Рекомендации по GPU (например, RTX 3060) с задержкой около 430 мс.
- Задержка при работе процессора выше.
4. Операции командной строки
- Пример преобразования речи::
python inference.py --source input.wav --target ref.wav --output ./out --diffusion-steps 25 --length-adjust 1.0 --fp16 True
- Пример преобразования песни::
python inference.py --source song.wav --target singer.wav --output ./out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True
5. Индивидуальное обучение
- перейти::
- Подготовьте 1-30-секундный аудиофайл (.wav/.mp3 и т.д.) в папке.
- Беговая тренировка:
python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir ./data --run-name myrun --max-steps 1000
- Контрольная точка после обучения в файле . /runs/myrun/ft_model.pth .
- Рассуждения с использованием пользовательских моделей:
python app_svc.py --checkpoint ./runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
- принимать к сведению: не менее 1 аудиосэмпла для обучения, около 2 минут на 100 шагов (T4 GPU).
дополнительное примечание
- Выбор модели::
- В режиме реального времени с seed-uvit-tat-xlsr-tiny (25M параметров).
- Озвучивание в автономном режиме с помощью seed-uvit-whisper-small-wavenet (98M параметров).
- Для вокала используйте seed-uvit-whisper-base (параметры 200M, 44kHz).
- регулировка компонентов во время тестирования::
- Сообщить об ошибке ModuleNotFoundError , проверить зависимость.
- Для работы графических интерфейсов в реальном времени на компьютерах Mac может потребоваться Python с установленным Tkinter.
сценарий применения
- развлекательный дубляж
Превращайте голоса в мультяшных персонажей, чтобы создавать смешные видеоролики. - производство музыки
Превращает обычный вокал в профессиональные мелодии, создавая демо-версии песен. - живое взаимодействие
Ведущий меняет свой голос в режиме реального времени, чтобы сделать шоу более интересным. - изучение языков
Подражайте речи носителей языка и отрабатывайте произношение.
QA
- Вам нужно много данных?
Нет. Для преобразования требуется 1 короткий аудиоклип, а для обучения - только 1 образец. - Поддерживает ли он китайское аудио?
Поддержка. Если эталонный звук на китайском языке, конвертация также будет понятной. - А как насчет высокой латентности?
Используйте GPU и установите низкое количество шагов диффузии (4-10). - А как насчет низкого качества звука?
Увеличьте шаг диффузии до 50 или используйте чистый эталонный звук.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...