Fish Speech: быстрое и высокоточное клонирование английской и китайской речи по небольшому количеству образцов
Общее введение
Fish Speech - это инструмент синтеза текста в речь (TTS) с открытым исходным кодом, разработанный компанией Fish Audio. Инструмент основан на передовых технологиях искусственного интеллекта, таких как VQ-GAN, Llama и VITS, и способен преобразовывать текст в реалистичную речь. Fish Speech не только поддерживает множество языков, но и предоставляет высокоэффективные решения по синтезу речи для различных сценариев применения, таких как закадровый голос, голосовые помощники и доступное чтение.
Обновлен проект клонирования голоса FishSpeech 1.5 ~ аналогичный предыдущему, которым я поделился для примера. F5-TTS , и MaskGCT FishSpeech - это проект клонирования голоса, который требует всего 5-10 секунд голосовых образцов, чтобы в точности воспроизвести характеристики голоса человека, и поддерживает несколько языков, таких как китайский, английский, японский и корейский.
Предоставлен открытый исходный код Fish Speech v1.5.0 Optimised One Piece Integration Pack.
Опыт работы в Интернете на сайте https://fish.audio/zh-CN/
Рекомендуемое 30-секундное аудио
Список функций
- Поддержка нескольких языков: Поддержка преобразования текста в речь на нескольких языках.
- Эффективный синтез: Эффективный синтез речи на основе таких методов, как VQ-GAN, Llama и VITS.
- проект с открытым исходным кодом: Код является открытым, и пользователи могут свободно загружать и использовать его.
- Онлайн-демонстрация: Обеспечивает функцию онлайн-демонстрации, пользователи могут непосредственно испытать эффект синтеза речи.
- Скачать модель: Поддержка загрузки предварительно обученных моделей с платформы Hugging Face.
Использование помощи
Процесс установки
системные требования
- Память GPU: 4 ГБ (для рассуждений), 8 ГБ (для тонкой настройки)
- системы: Linux, Windows
Конфигурация Windows
профессиональный пользователь
- Рассмотрите возможность использования WSL2 или Docker для запуска кодовой базы.
непрофессиональный пользователь
- Распакуйте zip-файл проекта.
- удар (по клавиатуре) install_env.bat среда установки.
- Вы можете решить, использовать или нет зеркальную загрузку, отредактировав запись USE_MIRROR в файле install_env.bat.
USE_MIRROR=false
Используйте оригинальный сайт для загрузки последней стабильной версии среды torch.USE_MIRROR=true
Используйте зеркальный сайт для загрузки последней версии среды torch (по умолчанию).
- Вы можете решить, включать ли загрузку компилируемого окружения, отредактировав запись INSTALL_TYPE в файле install_env.bat.
INSTALL_TYPE=preview
Загрузите версию среды компиляции для разработки.INSTALL_TYPE=stable
Загрузите стабильную версию без среды компиляции.
- Вы можете решить, использовать или нет зеркальную загрузку, отредактировав запись USE_MIRROR в файле install_env.bat.
- Если шаг 2 INSTALL_TYPE=previewЕсли вы не хотите использовать этот шаг, выполните этот шаг (его можно пропустить; этот шаг активирует среду скомпилированной модели).
- Загрузите компилятор LLVM:
- LLVM-17.0.6(Оригинальная загрузка сайта)
- LLVM-17.0.6(скачать зеркальный сайт)
- После загрузки LLVM-17.0.6-win64.exe дважды щелкните по нему, чтобы установить, выберите подходящее место установки и отметьте пункт Add Path to Current User, чтобы добавить переменные окружения.
- Загрузите компилятор LLVM:
- Загрузите и установите пакет Microsoft Visual C++ Redistributable Packageчтобы решить потенциальную проблему потери .dll.
- Загрузите и установите Visual Studio Community Editionчтобы заставить инструмент компиляции MSVC++ разрешить зависимости заголовочных файлов LLVM.
- Visual Studio Скачать
- После установки Visual Studio Installer загрузите Visual Studio Community 2022.
- Нажмите на кнопку Modify, найдите пункт Desktop Development using C++ и отметьте пункт Download.
- скачать и установить Набор инструментов CUDA 12.
- двойной щелчок start.bat Откройте интерфейс администрирования Training Reasoning WebUI. При необходимости измените API_FLAGS, как указано ниже.
- Хотите запустить интерфейс Reasoning WebUI? Отредактируйте файл API_FLAGS.txt в корневом каталоге проекта и измените первые три строки на следующий формат:
--infer # --api # --listen ...
- Хотите запустить сервер API? Отредактируйте файл API_FLAGS.txt в корневом каталоге проекта и измените первые три строки на следующий формат:
# --infer --api --listen ...
- Хотите запустить интерфейс Reasoning WebUI? Отредактируйте файл API_FLAGS.txt в корневом каталоге проекта и измените первые три строки на следующий формат:
- двойной щелчок run_cmd.bat Введите среду командной строки conda/python для этого проекта.
Конфигурация Linux
- Создание виртуальной среды python 3.10Вы также можете использовать virtualenv:
conda create -n fish-speech python=3.10 conda activate fish-speech
- Установка pytorch::
pip3 install torch torchvision torchaudio
- Установите fish-speech::
pip3 install -e .[stable]
- (Пользователи Ubuntu / Debian) Установите sox::
apt install libsox-dev
Конфигурация Docker
- Установка набора инструментов NVIDIA Container Toolkit::
- Для пользователей Ubuntu:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker
- Для пользователей других дистрибутивов Linux, пожалуйста, обратитесь к руководству по установке NVIDIA Container Toolkit.
- Для пользователей Ubuntu:
- Извлеките и запустите изображение рыбьей речи::
docker pull lengyue233/fish-speech docker run -it \ --name fish-speech \ --gpus all \ -p 7860:7860 \ lengyue233/fish-speech \ zsh
- Если вам нужно использовать другой порт, измените
-p
параметрыYourPort:7860
.
- Если вам нужно использовать другой порт, измените
- Скачать модель зависимостей::
- Убедитесь, что вы находитесь в терминале внутри докер-контейнера, прежде чем загружать необходимые модели vqgan и llama из нашего репозитория huggingface:
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
- Для пользователей материкового Китая его можно загрузить через зеркальный сайт:
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
- Убедитесь, что вы находитесь в терминале внутри докер-контейнера, прежде чем загружать необходимые модели vqgan и llama из нашего репозитория huggingface:
- Чтобы настроить переменные среды, зайдите в веб-интерфейс::
- В терминале внутри контейнера docker введите:
export GRADIO_SERVER_NAME="0.0.0.0"
- Затем в терминале внутри контейнера docker введите:
python tools/webui.py
- Если это WSL или MacOS, зайдите в
http://localhost:7860
Откроется интерфейс WebUI. - При развертывании на сервере замените
localhost
это IP-адрес вашего сервера.
- В терминале внутри контейнера docker введите:
Fish Audio One-Click Installer
Рекомендуем последнюю версию Niu, код расшифровки: niugee.com
https://drive.google.com/drive/folders/1KeYuZ9fYplDEgA3jg2IUKtECpT0wsz6V?usp=drive_link
Ссылка:https://pan.baidu.com/s/1pWaziAC7xMV908TuOkYdyw?pwd=niug Код для извлечения: niug
Sword 27 Special Edition: https://pan.quark.cn/s/30608499dee1 Пароль для распаковки zip - jian27 или jian27.com
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...