Seed-VC: поддерживает преобразование речи и песен в реальном времени с меньшим количеством сэмплов

Последние ресурсы по искусственному интеллектуОпубликовано 12 месяцев назад Круг обмена ИИ

127.7K 00

Общее введение

Seed-VC - это проект с открытым исходным кодом на GitHub, разработанный компанией Plachtaa. Он может использовать от 1 до 30 секунд эталонного аудио для быстрого преобразования голоса или песни без дополнительного обучения. Проект поддерживает преобразование голоса в реальном времени, задержка составляет всего 400 миллисекунд или около того, что подходит для онлайн-встреч, игр или живого использования. Seed-VC обеспечивает три режима: преобразование голоса (VC), преобразование песен (SVC) и преобразование в реальном времени. Он использует Шепот и BigVGAN и другие технологии для обеспечения чистого звука. Код бесплатен и открыт для публики, пользователи могут скачать и собрать его локально. Официальные обновления, подробная документация и активная поддержка сообщества.

Список функций

Поддержка преобразования с нулевой выборкой: имитируйте целевой голос или песню с помощью короткого аудио.
Обработка голоса в реальном времени: голос мгновенно меняется на заданный тон после ввода микрофона.
Преобразование песен: преобразуйте любую песню в голос указанного исполнителя.
Регулировка длины звука: ускоряйте или замедляйте речь, чтобы контролировать темп.
Регулировка высоты тона: автоматическая или ручная регулировка высоты тона в соответствии с заданным тоном.
Работа с веб-интерфейсом: обеспечивает простой графический интерфейс для удобства использования.
Поддержка индивидуального обучения: оптимизируйте конкретные звуки с помощью небольшого количества данных.
Открытый исходный код: изменяемые пользователем или обновляемые функции.

Использование помощи

Процесс установки

Чтобы использовать Seed-VC локально, необходимо сначала установить среду. Ниже приведены подробные шаги для Windows, Mac (с чипами серии M) или Linux.

Подготовка среды
- Установите Python 3.10, просто скачайте его с официального сайта.
- Чтобы установить Git, найдите "Git for Windows" для пользователей Windows или brew install git для Mac.
- Пользователям GPU необходимо установить CUDA 12.4 и соответствующие драйверы, CPU также может работать, но медленнее.
- Чтобы установить FFmpeg для обработки звука, загрузите его с официального сайта для Windows, установите ffmpeg с помощью brew для Mac и установите его с помощью менеджера пакетов для Linux.
Код загрузки
- Откройте командную строку (CMD или Anaconda Prompt для Windows, Terminal для Mac/Linux).
- Введите git clone https://github.com/Plachtaa/seed-vc.git, чтобы загрузить проект.
- Перейдите в каталог: cd seed-vc .
Настройка виртуальной среды
- Введите python -m venv venv, чтобы создать автономное окружение.
- Активируйте окружающую среду:
  - Windows: venv\Scripts\activate
  - Mac/Linux: source venv/bin/activate
- См. (venv) для успеха.
Установка зависимостей
- Windows/Linux Введите pip install -r requirements.txt.
- Серия Mac M введите pip install -r requirements-mac.txt .
- Добавьте зеркалирование для решения сетевых проблем: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
программа бега
- Преобразование голоса: python app_vc.py
- Преобразование песни: python app_svc.py
- Преобразование в реальном времени: python real-time-gui.py
- После запуска браузер заходит на сайт http://localhost:7860, чтобы воспользоваться интерфейсом.

Основные функции

1. преобразование голоса (VC)

перейти::
1. Запустите python app_vc.py и откройте браузер на http://localhost:7860.
2. Загрузите исходное аудио (Source Audio) и опорное аудио (Reference Audio, 1-30 секунд).
3. Установите шаг диффузии, по умолчанию 25, для лучшего качества звука установите 30-50.
4. Регулировка длины, меньше 1 - ускорение, больше 1 - замедление.
5. Нажмите кнопку Отправить, подождите несколько секунд и загрузите результаты преобразования.
принимать к сведению::
- При первом запуске будет автоматически загружена модель seed-uvit-whisper-small-wavenet.
- Опорный звук обрывается через 30 секунд.

2. Преобразование голоса песни (SVC)

перейти::
1. Запустите файл python app_svc.py, чтобы открыть веб-интерфейс.
2. Загрузите аудиозапись песни и аудиозапись с референсом певца.
3. Отметьте f0-условие, чтобы сохранить высоту тона песни.
4. Дополнительная функция auto-f0-adjust Автоматически настраивает высоту тона.
5. Установите число шагов диффузии на 30-50 и нажмите кнопку Отправить.
изысканность::
- Для достижения наилучших результатов используйте чистый и без фоновых шумов эталонный звук.
- Модели по умолчанию загружают seed-uvit-whisper-base.

3. конверсия в реальном времени

перейти::
1. Запустите python real-time-gui.py, чтобы открыть интерфейс.
2. Загрузите эталонный звук и подключите микрофон.
3. Параметры настройки: ступени диффузии 4-10, время блокировки 0,18 сек.
4. Нажмите "Старт", и голос изменится в реальном времени во время речи.
5. Используйте VB-CABLE, чтобы направить выход на виртуальный микрофон.
запрос::
- Рекомендации по GPU (например, RTX 3060) с задержкой около 430 мс.
- Задержка при работе процессора выше.

4. Операции командной строки

Пример преобразования речи::

 python inference.py --source input.wav --target ref.wav --output ./out --diffusion-steps 25 --length-adjust 1.0 --fp16 True

Пример преобразования песни::

 python inference.py --source song.wav --target singer.wav --output ./out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True

5. Индивидуальное обучение

перейти::
1. Подготовьте 1-30-секундный аудиофайл (.wav/.mp3 и т.д.) в папке.
2. Беговая тренировка:
```
 python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir ./data --run-name myrun --max-steps 1000
```
3. Контрольная точка после обучения в файле . /runs/myrun/ft_model.pth .
4. Рассуждения с использованием пользовательских моделей:
```
 python app_svc.py --checkpoint ./runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
```
принимать к сведению: не менее 1 аудиосэмпла для обучения, около 2 минут на 100 шагов (T4 GPU).

дополнительное примечание

Выбор модели::
- В режиме реального времени с seed-uvit-tat-xlsr-tiny (25M параметров).
- Озвучивание в автономном режиме с помощью seed-uvit-whisper-small-wavenet (98M параметров).
- Для вокала используйте seed-uvit-whisper-base (параметры 200M, 44kHz).
регулировка компонентов во время тестирования::
- Сообщить об ошибке ModuleNotFoundError , проверить зависимость.
- Для работы графических интерфейсов в реальном времени на компьютерах Mac может потребоваться Python с установленным Tkinter.

сценарий применения

развлекательный дубляж
Превращайте голоса в мультяшных персонажей, чтобы создавать смешные видеоролики.
производство музыки
Превращает обычный вокал в профессиональные мелодии, создавая демо-версии песен.
живое взаимодействие
Ведущий меняет свой голос в режиме реального времени, чтобы сделать шоу более интересным.
изучение языков
Подражайте речи носителей языка и отрабатывайте произношение.

QA

Вам нужно много данных?
Нет. Для преобразования требуется 1 короткий аудиоклип, а для обучения - только 1 образец.
Поддерживает ли он китайское аудио?
Поддержка. Если эталонный звук на китайском языке, конвертация также будет понятной.
А как насчет высокой латентности?
Используйте GPU и установите низкое количество шагов диффузии (4-10).
А как насчет низкого качества звука?
Увеличьте шаг диффузии до 50 или используйте чистый эталонный звук.