VoiceCraft: инструмент для клонирования речи и преобразования текста в речь с нулевым образцом с открытым исходным кодом

Общее введение

VoiceCraft - это инструмент для редактирования речи и синтеза речи с нулевым образцом, основанный на языковой модели Neural Codec с открытым исходным кодом. В нем используется инновационный метод генерации кодированных последовательностей, который позволяет вставлять, удалять и заменять существующие речевые последовательности для создания естественной, связной отредактированной речи. Кроме того, VoiceCraft поддерживает синтез речи с нулевой выборкой, что избавляет от необходимости дополнительной тонкой настройки для конкретных дикторов. Инструмент отлично справляется с несколькими задачами по обработке речи, значительно превосходя текущие промышленные модели SOTA.

VoiceCraft:开源零样本语音克隆与文本转语音工具

 

Список функций

  • Редактирование голоса: поддержка операций вставки, удаления и замены для создания естественного и плавного редактирования голоса.
  • Синтез речи с нулевой выборкой: генерирует голос целевого диктора без дополнительной тонкой настройки.
  • На основе архитектуры Transformer: для улучшения качества генерации используются методы каузальной маскировки и отложенного суммирования.
  • Модели с открытым исходным кодом: их можно бесплатно скачать и использовать на Huggingface и AI Express.
  • Интерактивный пользовательский интерфейс: интеграция с библиотекой Gradio позволяет пользователям интуитивно управлять и тестировать модели.

 

Использование помощи

Процесс установки

  1. Клонируйте репозиторий проекта в локальный каталог:
    git clone git@github.com:jasonppy/VoiceCraft.git
    cd VoiceCraft
    
  2. Убедитесь, что Docker и NVIDIA Container Toolkit установлены в вашей системе (в системах Windows есть встроенные драйверы):
    sudo apt-get install -y nvidia-container-toolkit-base
    
  3. Создайте образ Docker:
    docker build --tag "voicecraft" .
    
  4. Запустите существующий контейнер или создайте новый и передайте в него все графические процессоры:
    ./start-jupyter.sh  # Linux
    start-jupyter.bat   # Windows
    
  5. Откройте браузер и перейдите по URL-адресу, отображаемому на терминале:
    docker logs jupyter
    
  6. Дополнительно: доступ к внутреннему пространству контейнера с другого терминала:
    docker exec -it jupyter /bin/bash
    export USER=(your_linux_username_used_above)
    export HOME=/home/$USER
    sudo apt-get update
    
  7. Убедитесь, что видеокарта видна в контейнере:
    nvidia-smi
    
  8. Откройте в браузереinference_tts.ipynbЯчейка выполняется шаг за шагом.

Параметры окружающей среды

  1. Создайте и активируйте виртуальную среду:
    conda create -n voicecraft python=3.9.16
    conda activate voicecraft
    
  2. Установите необходимые зависимости:
    pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
    pip install xformers==0.0.22
    pip install torchaudio==2.0.2 torch==2.0.1
    apt-get install ffmpeg
    apt-get install espeak-ng
    pip install tensorboard==2.16.2
    pip install phonemizer==3.2.1
    pip install datasets==2.16.0
    pip install torchmetrics==0.11.1
    pip install huggingface_hub==0.22.2
    conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
    mfa model download dictionary english_us_arpa
    mfa model download acoustic english_us_arpa
    conda install -n voicecraft ipykernel --no-deps --force-reinstall
    

Пример рассуждений

  1. Редактирование голоса:
    python phonemize_encodec_encode_hf.py --dataset_size xs --download_to path/to/store_huggingface_downloads --save_dir path/to/store_extracted_codes_and_phonemes --encodec_model_path path/to/encodec_model --mega_batch_size 120 --batch_size 32 --max_len 30000
    
  2. Вывод синтеза речи с нулевым образцом:
    python tts_demo.py -h
    

Gradio

  1. Запустите его в Colab:
    Open in Colab
    
  2. Работает локально:
    apt-get install -y espeak espeak-data libespeak1 libespeak-dev
    apt-get install -y festival*
    apt-get install -y build-essential
    apt-get install -y flac libasound2-dev libsndfile1-dev vorbis-tools
    apt-get install -y libxml2-dev libxslt-dev zlib1g-dev
    pip install -r gradio_requirements.txt
    python gradio_app.py
    

общие проблемы

  • Как улучшить естественность генерируемой речи? Убедитесь, что содержание входного текста соответствует стилю и контексту целевого образца речи.
  • Что делать, если созданный голосовой файл зашумлен? Попробуйте использовать образцы речи более высокого качества или изменить параметры модели.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...