VoiceCraft: инструмент для клонирования речи и преобразования текста в речь с нулевым образцом с открытым исходным кодом
Общее введение
VoiceCraft - это инструмент для редактирования речи и синтеза речи с нулевым образцом, основанный на языковой модели Neural Codec с открытым исходным кодом. В нем используется инновационный метод генерации кодированных последовательностей, который позволяет вставлять, удалять и заменять существующие речевые последовательности для создания естественной, связной отредактированной речи. Кроме того, VoiceCraft поддерживает синтез речи с нулевой выборкой, что избавляет от необходимости дополнительной тонкой настройки для конкретных дикторов. Инструмент отлично справляется с несколькими задачами по обработке речи, значительно превосходя текущие промышленные модели SOTA.

Список функций
- Редактирование голоса: поддержка операций вставки, удаления и замены для создания естественного и плавного редактирования голоса.
- Синтез речи с нулевой выборкой: генерирует голос целевого диктора без дополнительной тонкой настройки.
- На основе архитектуры Transformer: для улучшения качества генерации используются методы каузальной маскировки и отложенного суммирования.
- Модели с открытым исходным кодом: их можно бесплатно скачать и использовать на Huggingface и AI Express.
- Интерактивный пользовательский интерфейс: интеграция с библиотекой Gradio позволяет пользователям интуитивно управлять и тестировать модели.
Использование помощи
Процесс установки
- Клонируйте репозиторий проекта в локальный каталог:
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft
- Убедитесь, что Docker и NVIDIA Container Toolkit установлены в вашей системе (в системах Windows есть встроенные драйверы):
sudo apt-get install -y nvidia-container-toolkit-base
- Создайте образ Docker:
docker build --tag "voicecraft" .
- Запустите существующий контейнер или создайте новый и передайте в него все графические процессоры:
./start-jupyter.sh # Linux start-jupyter.bat # Windows
- Откройте браузер и перейдите по URL-адресу, отображаемому на терминале:
docker logs jupyter
- Дополнительно: доступ к внутреннему пространству контейнера с другого терминала:
docker exec -it jupyter /bin/bash export USER=(your_linux_username_used_above) export HOME=/home/$USER sudo apt-get update
- Убедитесь, что видеокарта видна в контейнере:
nvidia-smi
- Откройте в браузере
inference_tts.ipynb
Ячейка выполняется шаг за шагом.
Параметры окружающей среды
- Создайте и активируйте виртуальную среду:
conda create -n voicecraft python=3.9.16 conda activate voicecraft
- Установите необходимые зависимости:
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers==0.0.22 pip install torchaudio==2.0.2 torch==2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard==2.16.2 pip install phonemizer==3.2.1 pip install datasets==2.16.0 pip install torchmetrics==0.11.1 pip install huggingface_hub==0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall
Пример рассуждений
- Редактирование голоса:
python phonemize_encodec_encode_hf.py --dataset_size xs --download_to path/to/store_huggingface_downloads --save_dir path/to/store_extracted_codes_and_phonemes --encodec_model_path path/to/encodec_model --mega_batch_size 120 --batch_size 32 --max_len 30000
- Вывод синтеза речи с нулевым образцом:
python tts_demo.py -h
Gradio
- Запустите его в Colab:
Open in Colab
- Работает локально:
apt-get install -y espeak espeak-data libespeak1 libespeak-dev apt-get install -y festival* apt-get install -y build-essential apt-get install -y flac libasound2-dev libsndfile1-dev vorbis-tools apt-get install -y libxml2-dev libxslt-dev zlib1g-dev pip install -r gradio_requirements.txt python gradio_app.py
общие проблемы
- Как улучшить естественность генерируемой речи? Убедитесь, что содержание входного текста соответствует стилю и контексту целевого образца речи.
- Что делать, если созданный голосовой файл зашумлен? Попробуйте использовать образцы речи более высокого качества или изменить параметры модели.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...