Fish Speech: быстрое и высокоточное клонирование английской и китайской речи по небольшому количеству образцов

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

75.9K 00

Общее введение

Fish Speech - это инструмент синтеза текста в речь (TTS) с открытым исходным кодом, разработанный компанией Fish Audio. Инструмент основан на передовых технологиях искусственного интеллекта, таких как VQ-GAN, Llama и VITS, и способен преобразовывать текст в реалистичную речь. Fish Speech не только поддерживает множество языков, но и предоставляет высокоэффективные решения по синтезу речи для различных сценариев применения, таких как закадровый голос, голосовые помощники и доступное чтение.

Обновлен проект клонирования голоса FishSpeech 1.5 ~ аналогичный предыдущему, которым я поделился для примера. F5-TTS , и MaskGCT FishSpeech - это проект клонирования голоса, который требует всего 5-10 секунд голосовых образцов, чтобы в точности воспроизвести характеристики голоса человека, и поддерживает несколько языков, таких как китайский, английский, японский и корейский.

Предоставлен открытый исходный код Fish Speech v1.5.0 Optimised One Piece Integration Pack.

Опыт работы в Интернете на сайте https://fish.audio/zh-CN/

Рекомендуемое 30-секундное аудио

Список функций

Поддержка нескольких языков: Поддержка преобразования текста в речь на нескольких языках.
Эффективный синтез: Эффективный синтез речи на основе таких методов, как VQ-GAN, Llama и VITS.
проект с открытым исходным кодом: Код является открытым, и пользователи могут свободно загружать и использовать его.
Онлайн-демонстрация: Обеспечивает функцию онлайн-демонстрации, пользователи могут непосредственно испытать эффект синтеза речи.
Скачать модель: Поддержка загрузки предварительно обученных моделей с платформы Hugging Face.

Использование помощи

Процесс установки

системные требования

Память GPU: 4 ГБ (для рассуждений), 8 ГБ (для тонкой настройки)
системы: Linux, Windows

Конфигурация Windows

профессиональный пользователь

Рассмотрите возможность использования WSL2 или Docker для запуска кодовой базы.

непрофессиональный пользователь

Распакуйте zip-файл проекта.
удар (по клавиатуре) install_env.bat среда установки.
- Вы можете решить, использовать или нет зеркальную загрузку, отредактировав запись USE_MIRROR в файле install_env.bat.
  - USE_MIRROR=false Используйте оригинальный сайт для загрузки последней стабильной версии среды torch.
  - USE_MIRROR=true Используйте зеркальный сайт для загрузки последней версии среды torch (по умолчанию).
- Вы можете решить, включать ли загрузку компилируемого окружения, отредактировав запись INSTALL_TYPE в файле install_env.bat.
  - INSTALL_TYPE=preview Загрузите версию среды компиляции для разработки.
  - INSTALL_TYPE=stable Загрузите стабильную версию без среды компиляции.
Если шаг 2 INSTALL_TYPE=previewЕсли вы не хотите использовать этот шаг, выполните этот шаг (его можно пропустить; этот шаг активирует среду скомпилированной модели).
- Загрузите компилятор LLVM:
  - LLVM-17.0.6(Оригинальная загрузка сайта)
  - LLVM-17.0.6(скачать зеркальный сайт)
- После загрузки LLVM-17.0.6-win64.exe дважды щелкните по нему, чтобы установить, выберите подходящее место установки и отметьте пункт Add Path to Current User, чтобы добавить переменные окружения.
Загрузите и установите пакет Microsoft Visual C++ Redistributable Packageчтобы решить потенциальную проблему потери .dll.
- MSVC++ 14.40.33810.0 downloads
Загрузите и установите Visual Studio Community Editionчтобы заставить инструмент компиляции MSVC++ разрешить зависимости заголовочных файлов LLVM.
- Visual Studio Скачать
- После установки Visual Studio Installer загрузите Visual Studio Community 2022.
- Нажмите на кнопку Modify, найдите пункт Desktop Development using C++ и отметьте пункт Download.
скачать и установить Набор инструментов CUDA 12.
двойной щелчок start.bat Откройте интерфейс администрирования Training Reasoning WebUI. При необходимости измените API_FLAGS, как указано ниже.
- Хотите запустить интерфейс Reasoning WebUI? Отредактируйте файл API_FLAGS.txt в корневом каталоге проекта и измените первые три строки на следующий формат:
```
--infer
# --api
# --listen ...
```
- Хотите запустить сервер API? Отредактируйте файл API_FLAGS.txt в корневом каталоге проекта и измените первые три строки на следующий формат:
```
# --infer
--api
--listen ...
```
двойной щелчок run_cmd.bat Введите среду командной строки conda/python для этого проекта.

Конфигурация Linux

Создание виртуальной среды python 3.10Вы также можете использовать virtualenv:
```
conda create -n fish-speech python=3.10
conda activate fish-speech
```

Установка pytorch::

pip3 install torch torchvision torchaudio

Установите fish-speech::
```
pip3 install -e .[stable]
```
(Пользователи Ubuntu / Debian) Установите sox::
```
apt install libsox-dev
```

Конфигурация Docker

Установка набора инструментов NVIDIA Container Toolkit::

Для пользователей Ubuntu:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

Для пользователей других дистрибутивов Linux, пожалуйста, обратитесь к руководству по установке NVIDIA Container Toolkit.

Извлеките и запустите изображение рыбьей речи::
```
docker pull lengyue233/fish-speech
docker run -it \
--name fish-speech \
--gpus all \
-p 7860:7860 \
lengyue233/fish-speech \
zsh
```
- Если вам нужно использовать другой порт, измените -p параметры YourPort:7860.
Скачать модель зависимостей::
- Убедитесь, что вы находитесь в терминале внутри докер-контейнера, прежде чем загружать необходимые модели vqgan и llama из нашего репозитория huggingface:
```
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
- Для пользователей материкового Китая его можно загрузить через зеркальный сайт:
```
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
Чтобы настроить переменные среды, зайдите в веб-интерфейс::
- В терминале внутри контейнера docker введите:
```
export GRADIO_SERVER_NAME="0.0.0.0"
```
- Затем в терминале внутри контейнера docker введите:
```
python tools/webui.py
```
- Если это WSL или MacOS, зайдите в http://localhost:7860 Откроется интерфейс WebUI.
- При развертывании на сервере замените localhost это IP-адрес вашего сервера.