MegaTTS3: легкая модель для синтеза китайской и английской речи

Общее введение

MegaTTS3 - это инструмент синтеза речи с открытым исходным кодом, разработанный компанией ByteDance в сотрудничестве с Чжэцзянским университетом и предназначенный для генерации высококачественной китайской и английской речи. Его основная модель имеет всего 0,45 ББ параметров, легка и эффективна, поддерживает генерацию смешанной китайской и английской речи и клонирование речи. Проект размещен на GitHub и предоставляет код и предварительно обученные модели для бесплатного скачивания.MegaTTS3 может имитировать целевой голос с помощью нескольких секунд аудиообразцов, а также поддерживает настройку интенсивности акцента. Он подходит для академических исследований, создания контента и разработки речевых приложений, а функции контроля произношения и длительности будут добавлены в будущем.

MegaTTS3:合成中英文语音的轻量模型

 

Список функций

  • Генерируйте китайскую, английскую и смешанную речь с естественным и плавным выходом.
  • Высококачественное клонирование речи достигается с помощью небольшого количества звука, имитирующего определенный тембр.
  • Поддерживает настройку силы акцента, может генерировать речь с акцентом или стандартным произношением.
  • Используйте акустические латенты для повышения эффективности обучения модели.
  • Встроенный высококачественный вокодер WaveVAE для повышения разборчивости и реалистичности речи.
  • Для поддержки анализа речи предусмотрены подмодули Aligner и Graphme-to-Phoneme.
  • Открытый исходный код и предварительно обученные модели для пользовательской разработки.

 

Использование помощи

MegaTTS3 требует некоторого базового опыта программирования, особенно на Python и в средах глубокого обучения. Ниже приведены подробные инструкции по установке и использованию.

Процесс установки

  1. Построенная среда
    MegaTTS3 Рекомендуется Python 3.9. Это можно сделать с помощью Conda Создайте виртуальную среду:

    conda create -n megatts3-env python=3.9
    conda activate megatts3-env
    

    После активации все операции выполняются в этой среде.

  2. Код загрузки
    Выполните следующую команду в терминале для клонирования GitHub Склад:

    git clone https://github.com/bytedance/MegaTTS3.git
    cd MegaTTS3
    
  3. Установка зависимостей
    Проектные предложения requirements.txtЕсли вы хотите установить необходимые библиотеки, выполните следующую команду:

    pip install -r requirements.txt
    

    Время установки зависит от сети и устройства и обычно завершается за несколько минут.

  4. Получение модели
    Предварительно обученные модели можно загрузить с Google Drive или Hugging Face (см. официальные ссылки). README). Скачайте его и распакуйте в ./checkpoints/ Папка. Пример:

    • главнокомандующий (военный) model.pth вводить ./checkpoints/model.pth.
    • предварительно экстрагированный latents Файлы должны быть загружены по указанной ссылке в ту же директорию.
  5. тестовая установка
    Запустите простую тестовую команду для проверки среды:

    python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "测试" --output_dir ./gen
    

    Если сообщений об ошибках нет, значит, установка прошла успешно.

Основные функции

синтез речи

Генерация речи - основная функция MegaTTS3. Она требует ввода текста и эталонного аудио:

  • Подготовьте документ
    существовать assets/ в папку с эталонным аудио (например. Chinese_prompt.wavи latents Файлы (например. Chinese_prompt.npy). Если нет latentsТребуются официальные предварительно извлеченные файлы.
  • Выполнить команду
    Вход:

    CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "你好,这是一段测试语音" --output_dir ./gen
    
    • --input_wav опорный аудиотракт.
    • --input_text это текст, который необходимо синтезировать.
    • --output_dir выходная папка.
  • Посмотреть результаты
    Созданная речь сохраняется в ./gen/output.wavФильм доступен для прямого воспроизведения.

клонирование речи

Для имитации определенного звука требуется всего несколько секунд аудиосэмплов:

  • Подготовьте четкий опорный звук (рекомендуется 5-10 секунд).
  • Используйте приведенную выше команду синтеза, чтобы указать --input_wav.
  • Выходной голос будет максимально приближен к эталонному тону.

регулировка акцента

Настройка силы акцента с помощью параметров p_w ответить пением t_w::

  • Введите английский звук с акцентом:
    CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text "这是一条有口音的音频" --output_dir ./gen --p_w 1.0 --t_w 3.0
    
  • p_w подход 1.0 Временами сохраняется оригинальный акцент, но при этом нарастает тенденция к стандартному произношению.
  • t_w Контролирует сходство тембров, обычно более чем p_w ваш (почетный) 0-3.
  • Создайте стандартное произношение:
    CUDA_VISIBLE_DEVICES=0 python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text "这条音频发音标准一些" --output_dir ./gen --p_w 2.5 --t_w 2.5
    

Операции с веб-интерфейсом

Поддерживает работу через веб-интерфейс:

  • Бег:
    CUDA_VISIBLE_DEVICES=0 python tts/gradio_api.py
    
  • Откройте браузер и введите адрес (по умолчанию) localhost:7860), загружайте аудио и текст для создания речи.CPU Приблизительно 30 секунд в условиях окружающей среды.

Использование субмодуля

Алигномер

  • функциональность: Выравнивание речи и текста.
  • использование: Беги tts/frontend_function.py Пример кода для сегментации речи или распознавания фонем в

Графема к фонеме

  • функциональность: Преобразование текста в фонемы.
  • использование: Справочник tts/infer_cli.py, который можно использовать для анализа произношения.

WaveVAE

  • функциональность: Сжатый звук latents и восстановлен.
  • ограничение: параметры кодировщика не раскрываются и могут использоваться только с предварительно извлеченными latents.

предостережение

  • Параметры кодировщика WaveVAE недоступны по соображениям безопасности и могут использоваться только с официальными latents Документация.
  • Проект был выпущен 22 марта 2025 года и до сих пор находится в стадии разработки, планируются новые варианты произношения и корректировки продолжительности.
  • GPU Ускоренные рекомендации.CPU Работает, но медленно.

 

 

сценарий применения

  1. научные исследования
    Исследователи могут тестировать методы синтеза речи с помощью MegaTTS3, анализируя latents Эффект
  2. Учебные пособия
    Преобразование учебников в речь и создание аудиокниг для повышения эффективности обучения.
  3. создание контента
    Создавайте дикторский текст для видео или подкастов и экономьте на затратах на ручную запись.
  4. голосовое взаимодействие
    Разработчики могут интегрировать его в свои устройства, чтобы обеспечить голосовой диалог на английском и китайском языках.

 

QA

  1. Какие языки поддерживаются?
    Поддерживает китайский, английский и смешанную речь, с возможностью расширения на другие языки в будущем.
  2. обязательно GPU Что? Я не знаю.
    Не обязательно.CPU Его можно запустить, но он работает медленно, поэтому рекомендуется использовать GPU.
  3. Как справиться со сбоями в установке?
    обновление pip(pip install --upgrade pip), проверить сеть или в GitHub Отправить выпуск.
  4. Почему отсутствуют кодировщики WaveVAE?
    Не разглашается по соображениям безопасности, требуется официальное предварительное извлечение latents.
© заявление об авторских правах

Похожие статьи

Internet.io:聚合多AI模型答案的智能工作平台
Blackbox:集成多模型智能体对话,独家Blackbox模型编程助手

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...