Seed-VC: поддерживает преобразование речи и песен в реальном времени с меньшим количеством сэмплов

Общее введение

Seed-VC - это проект с открытым исходным кодом на GitHub, разработанный компанией Plachtaa. Он может использовать от 1 до 30 секунд эталонного аудио для быстрого преобразования голоса или песни без дополнительного обучения. Проект поддерживает преобразование голоса в реальном времени, задержка составляет всего 400 миллисекунд или около того, что подходит для онлайн-встреч, игр или живого использования. Seed-VC обеспечивает три режима: преобразование голоса (VC), преобразование песен (SVC) и преобразование в реальном времени. Он использует Шепот и BigVGAN и другие технологии для обеспечения чистого звука. Код бесплатен и открыт для публики, пользователи могут скачать и собрать его локально. Официальные обновления, подробная документация и активная поддержка сообщества.

Seed-VC:支持少样本实时转换语音和歌声

 

Список функций

  • Поддержка преобразования с нулевой выборкой: имитируйте целевой голос или песню с помощью короткого аудио.
  • Обработка голоса в реальном времени: голос мгновенно меняется на заданный тон после ввода микрофона.
  • Преобразование песен: преобразуйте любую песню в голос указанного исполнителя.
  • Регулировка длины звука: ускоряйте или замедляйте речь, чтобы контролировать темп.
  • Регулировка высоты тона: автоматическая или ручная регулировка высоты тона в соответствии с заданным тоном.
  • Работа с веб-интерфейсом: обеспечивает простой графический интерфейс для удобства использования.
  • Поддержка индивидуального обучения: оптимизируйте конкретные звуки с помощью небольшого количества данных.
  • Открытый исходный код: изменяемые пользователем или обновляемые функции.

 

Использование помощи

Процесс установки

Чтобы использовать Seed-VC локально, необходимо сначала установить среду. Ниже приведены подробные шаги для Windows, Mac (с чипами серии M) или Linux.

  1. Подготовка среды
    • Установите Python 3.10, просто скачайте его с официального сайта.
    • Чтобы установить Git, найдите "Git for Windows" для пользователей Windows или brew install git для Mac.
    • Пользователям GPU необходимо установить CUDA 12.4 и соответствующие драйверы, CPU также может работать, но медленнее.
    • Чтобы установить FFmpeg для обработки звука, загрузите его с официального сайта для Windows, установите ffmpeg с помощью brew для Mac и установите его с помощью менеджера пакетов для Linux.
  2. Код загрузки
    • Откройте командную строку (CMD или Anaconda Prompt для Windows, Terminal для Mac/Linux).
    • Введите git clone https://github.com/Plachtaa/seed-vc.git, чтобы загрузить проект.
    • Перейдите в каталог: cd seed-vc .
  3. Настройка виртуальной среды
    • Введите python -m venv venv, чтобы создать автономное окружение.
    • Активируйте окружающую среду:
      • Windows: venv\Scripts\activate
      • Mac/Linux: source venv/bin/activate
    • См. (venv) для успеха.
  4. Установка зависимостей
    • Windows/Linux Введите pip install -r requirements.txt.
    • Серия Mac M введите pip install -r requirements-mac.txt .
    • Добавьте зеркалирование для решения сетевых проблем: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
  5. программа бега
    • Преобразование голоса: python app_vc.py
    • Преобразование песни: python app_svc.py
    • Преобразование в реальном времени: python real-time-gui.py
    • После запуска браузер заходит на сайт http://localhost:7860, чтобы воспользоваться интерфейсом.

Основные функции

1. преобразование голоса (VC)

  • перейти::
    1. Запустите python app_vc.py и откройте браузер на http://localhost:7860.
    2. Загрузите исходное аудио (Source Audio) и опорное аудио (Reference Audio, 1-30 секунд).
    3. Установите шаг диффузии, по умолчанию 25, для лучшего качества звука установите 30-50.
    4. Регулировка длины, меньше 1 - ускорение, больше 1 - замедление.
    5. Нажмите кнопку Отправить, подождите несколько секунд и загрузите результаты преобразования.
  • принимать к сведению::
    • При первом запуске будет автоматически загружена модель seed-uvit-whisper-small-wavenet.
    • Опорный звук обрывается через 30 секунд.

2. Преобразование голоса песни (SVC)

  • перейти::
    1. Запустите файл python app_svc.py, чтобы открыть веб-интерфейс.
    2. Загрузите аудиозапись песни и аудиозапись с референсом певца.
    3. Отметьте f0-условие, чтобы сохранить высоту тона песни.
    4. Дополнительная функция auto-f0-adjust Автоматически настраивает высоту тона.
    5. Установите число шагов диффузии на 30-50 и нажмите кнопку Отправить.
  • изысканность::
    • Для достижения наилучших результатов используйте чистый и без фоновых шумов эталонный звук.
    • Модели по умолчанию загружают seed-uvit-whisper-base.

3. конверсия в реальном времени

  • перейти::
    1. Запустите python real-time-gui.py, чтобы открыть интерфейс.
    2. Загрузите эталонный звук и подключите микрофон.
    3. Параметры настройки: ступени диффузии 4-10, время блокировки 0,18 сек.
    4. Нажмите "Старт", и голос изменится в реальном времени во время речи.
    5. Используйте VB-CABLE, чтобы направить выход на виртуальный микрофон.
  • запрос::
    • Рекомендации по GPU (например, RTX 3060) с задержкой около 430 мс.
    • Задержка при работе процессора выше.

4. Операции командной строки

  • Пример преобразования речи::
     python inference.py --source input.wav --target ref.wav --output ./out --diffusion-steps 25 --length-adjust 1.0 --fp16 True
  • Пример преобразования песни::
     python inference.py --source song.wav --target singer.wav --output ./out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True
    

5. Индивидуальное обучение

  • перейти::
    1. Подготовьте 1-30-секундный аудиофайл (.wav/.mp3 и т.д.) в папке.
    2. Беговая тренировка:
       python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir ./data --run-name myrun --max-steps 1000
      
    3. Контрольная точка после обучения в файле . /runs/myrun/ft_model.pth .
    4. Рассуждения с использованием пользовательских моделей:
       python app_svc.py --checkpoint ./runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
      
  • принимать к сведению: не менее 1 аудиосэмпла для обучения, около 2 минут на 100 шагов (T4 GPU).

дополнительное примечание

  • Выбор модели::
    • В режиме реального времени с seed-uvit-tat-xlsr-tiny (25M параметров).
    • Озвучивание в автономном режиме с помощью seed-uvit-whisper-small-wavenet (98M параметров).
    • Для вокала используйте seed-uvit-whisper-base (параметры 200M, 44kHz).
  • регулировка компонентов во время тестирования::
    • Сообщить об ошибке ModuleNotFoundError , проверить зависимость.
    • Для работы графических интерфейсов в реальном времени на компьютерах Mac может потребоваться Python с установленным Tkinter.

 

сценарий применения

  1. развлекательный дубляж
    Превращайте голоса в мультяшных персонажей, чтобы создавать смешные видеоролики.
  2. производство музыки
    Превращает обычный вокал в профессиональные мелодии, создавая демо-версии песен.
  3. живое взаимодействие
    Ведущий меняет свой голос в режиме реального времени, чтобы сделать шоу более интересным.
  4. изучение языков
    Подражайте речи носителей языка и отрабатывайте произношение.

 

QA

  1. Вам нужно много данных?
    Нет. Для преобразования требуется 1 короткий аудиоклип, а для обучения - только 1 образец.
  2. Поддерживает ли он китайское аудио?
    Поддержка. Если эталонный звук на китайском языке, конвертация также будет понятной.
  3. А как насчет высокой латентности?
    Используйте GPU и установите низкое количество шагов диффузии (4-10).
  4. А как насчет низкого качества звука?
    Увеличьте шаг диффузии до 50 или используйте чистый эталонный звук.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...