VoiceCraft: инструмент для клонирования речи и преобразования текста в речь с нулевым образцом с открытым исходным кодом

Последние ресурсы по искусственному интеллекту2年前更新 Круг обмена ИИ

68.1K 00

Общее введение

VoiceCraft - это инструмент для редактирования речи и синтеза речи с нулевым образцом, основанный на языковой модели Neural Codec с открытым исходным кодом. В нем используется инновационный метод генерации кодированных последовательностей, который позволяет вставлять, удалять и заменять существующие речевые последовательности для создания естественной, связной отредактированной речи. Кроме того, VoiceCraft поддерживает синтез речи с нулевой выборкой, что избавляет от необходимости дополнительной тонкой настройки для конкретных дикторов. Инструмент отлично справляется с несколькими задачами по обработке речи, значительно превосходя текущие промышленные модели SOTA.

Список функций

Редактирование голоса: поддержка операций вставки, удаления и замены для создания естественного и плавного редактирования голоса.
Синтез речи с нулевой выборкой: генерирует голос целевого диктора без дополнительной тонкой настройки.
На основе архитектуры Transformer: для улучшения качества генерации используются методы каузальной маскировки и отложенного суммирования.
Модели с открытым исходным кодом: их можно бесплатно скачать и использовать на Huggingface и AI Express.
Интерактивный пользовательский интерфейс: интеграция с библиотекой Gradio позволяет пользователям интуитивно управлять и тестировать модели.

Использование помощи

Процесс установки

Клонируйте репозиторий проекта в локальный каталог:
```
git clone git@github.com:jasonppy/VoiceCraft.git
cd VoiceCraft
```
Убедитесь, что Docker и NVIDIA Container Toolkit установлены в вашей системе (в системах Windows есть встроенные драйверы):
```
sudo apt-get install -y nvidia-container-toolkit-base
```
Создайте образ Docker:
```
docker build --tag "voicecraft" .
```
Запустите существующий контейнер или создайте новый и передайте в него все графические процессоры:
```
./start-jupyter.sh  # Linux
start-jupyter.bat   # Windows
```
Откройте браузер и перейдите по URL-адресу, отображаемому на терминале:
```
docker logs jupyter
```
Дополнительно: доступ к внутреннему пространству контейнера с другого терминала:
```
docker exec -it jupyter /bin/bash
export USER=(your_linux_username_used_above)
export HOME=/home/$USER
sudo apt-get update
```
Убедитесь, что видеокарта видна в контейнере:
```
nvidia-smi
```
Откройте в браузереinference_tts.ipynbЯчейка выполняется шаг за шагом.

Параметры окружающей среды

Создайте и активируйте виртуальную среду:
```
conda create -n voicecraft python=3.9.16
conda activate voicecraft
```

Установите необходимые зависимости:

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install xformers==0.0.22
pip install torchaudio==2.0.2 torch==2.0.1
apt-get install ffmpeg
apt-get install espeak-ng
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
pip install huggingface_hub==0.22.2
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
mfa model download dictionary english_us_arpa
mfa model download acoustic english_us_arpa
conda install -n voicecraft ipykernel --no-deps --force-reinstall

Пример рассуждений

Редактирование голоса:

python phonemize_encodec_encode_hf.py --dataset_size xs --download_to path/to/store_huggingface_downloads --save_dir path/to/store_extracted_codes_and_phonemes --encodec_model_path path/to/encodec_model --mega_batch_size 120 --batch_size 32 --max_len 30000

Вывод синтеза речи с нулевым образцом:
```
python tts_demo.py -h
```

Gradio

Запустите его в Colab:
```
Open in Colab
```

Работает локально:

apt-get install -y espeak espeak-data libespeak1 libespeak-dev
apt-get install -y festival*
apt-get install -y build-essential
apt-get install -y flac libasound2-dev libsndfile1-dev vorbis-tools
apt-get install -y libxml2-dev libxslt-dev zlib1g-dev
pip install -r gradio_requirements.txt
python gradio_app.py

общие проблемы

Как улучшить естественность генерируемой речи? Убедитесь, что содержание входного текста соответствует стилю и контексту целевого образца речи.
Что делать, если созданный голосовой файл зашумлен? Попробуйте использовать образцы речи более высокого качества или изменить параметры модели.