Fish Speech: быстрое и высокоточное клонирование английской и китайской речи по небольшому количеству образцов

Общее введение

Fish Speech - это инструмент синтеза текста в речь (TTS) с открытым исходным кодом, разработанный компанией Fish Audio. Инструмент основан на передовых технологиях искусственного интеллекта, таких как VQ-GAN, Llama и VITS, и способен преобразовывать текст в реалистичную речь. Fish Speech не только поддерживает множество языков, но и предоставляет высокоэффективные решения по синтезу речи для различных сценариев применения, таких как закадровый голос, голосовые помощники и доступное чтение.

Обновлен проект клонирования голоса FishSpeech 1.5 ~ аналогичный предыдущему, которым я поделился для примера. F5-TTS , и MaskGCT FishSpeech - это проект клонирования голоса, который требует всего 5-10 секунд голосовых образцов, чтобы в точности воспроизвести характеристики голоса человека, и поддерживает несколько языков, таких как китайский, английский, японский и корейский.

Предоставлен открытый исходный код Fish Speech v1.5.0 Optimised One Piece Integration Pack.

Fish Speech:快速且高精度使用少样本克隆中英文语音

Опыт работы в Интернете на сайте https://fish.audio/zh-CN/

 

Fish Speech:快速且高精度使用少样本克隆中英文语音

Рекомендуемое 30-секундное аудио

 

Список функций

  • Поддержка нескольких языков: Поддержка преобразования текста в речь на нескольких языках.
  • Эффективный синтез: Эффективный синтез речи на основе таких методов, как VQ-GAN, Llama и VITS.
  • проект с открытым исходным кодом: Код является открытым, и пользователи могут свободно загружать и использовать его.
  • Онлайн-демонстрация: Обеспечивает функцию онлайн-демонстрации, пользователи могут непосредственно испытать эффект синтеза речи.
  • Скачать модель: Поддержка загрузки предварительно обученных моделей с платформы Hugging Face.

 

Использование помощи

Процесс установки

системные требования

  • Память GPU: 4 ГБ (для рассуждений), 8 ГБ (для тонкой настройки)
  • системы: Linux, Windows

Конфигурация Windows

профессиональный пользователь
  • Рассмотрите возможность использования WSL2 или Docker для запуска кодовой базы.
непрофессиональный пользователь
  1. Распакуйте zip-файл проекта.
  2. удар (по клавиатуре) install_env.bat среда установки.
    • Вы можете решить, использовать или нет зеркальную загрузку, отредактировав запись USE_MIRROR в файле install_env.bat.
      • USE_MIRROR=false Используйте оригинальный сайт для загрузки последней стабильной версии среды torch.
      • USE_MIRROR=true Используйте зеркальный сайт для загрузки последней версии среды torch (по умолчанию).
    • Вы можете решить, включать ли загрузку компилируемого окружения, отредактировав запись INSTALL_TYPE в файле install_env.bat.
      • INSTALL_TYPE=preview Загрузите версию среды компиляции для разработки.
      • INSTALL_TYPE=stable Загрузите стабильную версию без среды компиляции.
  3. Если шаг 2 INSTALL_TYPE=previewЕсли вы не хотите использовать этот шаг, выполните этот шаг (его можно пропустить; этот шаг активирует среду скомпилированной модели).
    • Загрузите компилятор LLVM:
      • LLVM-17.0.6(Оригинальная загрузка сайта)
      • LLVM-17.0.6(скачать зеркальный сайт)
    • После загрузки LLVM-17.0.6-win64.exe дважды щелкните по нему, чтобы установить, выберите подходящее место установки и отметьте пункт Add Path to Current User, чтобы добавить переменные окружения.
  4. Загрузите и установите пакет Microsoft Visual C++ Redistributable Packageчтобы решить потенциальную проблему потери .dll.
  5. Загрузите и установите Visual Studio Community Editionчтобы заставить инструмент компиляции MSVC++ разрешить зависимости заголовочных файлов LLVM.
    • Visual Studio Скачать
    • После установки Visual Studio Installer загрузите Visual Studio Community 2022.
    • Нажмите на кнопку Modify, найдите пункт Desktop Development using C++ и отметьте пункт Download.
  6. скачать и установить Набор инструментов CUDA 12.
  7. двойной щелчок start.bat Откройте интерфейс администрирования Training Reasoning WebUI. При необходимости измените API_FLAGS, как указано ниже.
    • Хотите запустить интерфейс Reasoning WebUI? Отредактируйте файл API_FLAGS.txt в корневом каталоге проекта и измените первые три строки на следующий формат:
      --infer
      # --api
      # --listen ...
      
    • Хотите запустить сервер API? Отредактируйте файл API_FLAGS.txt в корневом каталоге проекта и измените первые три строки на следующий формат:
      # --infer
      --api
      --listen ...
      
  8. двойной щелчок run_cmd.bat Введите среду командной строки conda/python для этого проекта.

Конфигурация Linux

  1. Создание виртуальной среды python 3.10Вы также можете использовать virtualenv:
    conda create -n fish-speech python=3.10
    conda activate fish-speech
    
  2. Установка pytorch::
    pip3 install torch torchvision torchaudio
    
  3. Установите fish-speech::
    pip3 install -e .[stable]
    
  4. (Пользователи Ubuntu / Debian) Установите sox::
    apt install libsox-dev
    

Конфигурация Docker

  1. Установка набора инструментов NVIDIA Container Toolkit::
    • Для пользователей Ubuntu:
      curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
      && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
      sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
      sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
      sudo apt-get update
      sudo apt-get install -y nvidia-container-toolkit
      sudo systemctl restart docker
      
    • Для пользователей других дистрибутивов Linux, пожалуйста, обратитесь к руководству по установке NVIDIA Container Toolkit.
  2. Извлеките и запустите изображение рыбьей речи::
    docker pull lengyue233/fish-speech
    docker run -it \
    --name fish-speech \
    --gpus all \
    -p 7860:7860 \
    lengyue233/fish-speech \
    zsh
    
    • Если вам нужно использовать другой порт, измените -p параметры YourPort:7860.
  3. Скачать модель зависимостей::
    • Убедитесь, что вы находитесь в терминале внутри докер-контейнера, прежде чем загружать необходимые модели vqgan и llama из нашего репозитория huggingface:
      huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
    • Для пользователей материкового Китая его можно загрузить через зеркальный сайт:
      HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
  4. Чтобы настроить переменные среды, зайдите в веб-интерфейс::
    • В терминале внутри контейнера docker введите:
      export GRADIO_SERVER_NAME="0.0.0.0"
      
    • Затем в терминале внутри контейнера docker введите:
      python tools/webui.py
      
    • Если это WSL или MacOS, зайдите в http://localhost:7860 Откроется интерфейс WebUI.
    • При развертывании на сервере замените localhost это IP-адрес вашего сервера.

 

Fish Audio One-Click Installer


Рекомендуем последнюю версию Niu, код расшифровки: niugee.com

https://drive.google.com/drive/folders/1KeYuZ9fYplDEgA3jg2IUKtECpT0wsz6V?usp=drive_link

Ссылка:https://pan.baidu.com/s/1pWaziAC7xMV908TuOkYdyw?pwd=niug Код для извлечения: niug

Sword 27 Special Edition: https://pan.quark.cn/s/30608499dee1 Пароль для распаковки zip - jian27 или jian27.com

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...