Zonos: высококачественный синтез речи и инструменты для клонирования речи
Общее введение
Zonos - это инструмент для синтеза и клонирования речи с открытым исходным кодом, разработанный компанией Zyphra.В версии Zonos-v0.1 используется расширенный Трансформатор Функция клонирования речи Zonos генерирует высококачественную речь всего через несколько секунд эталонного аудио. Инструмент поддерживает множество языков, включая английский, японский, китайский, французский и немецкий, и предлагает тонкий контроль над качеством звука и эмоциями, а функция клонирования речи Zonos генерирует очень естественную речь после предоставления всего нескольких секунд эталонного аудио. Пользователи могут получить весовые коэффициенты модели и код примера через GitHub и опробовать его на Huggingface.

Список функций
- Клонирование речи TTS с нулевым образцом: Ввод текста и 10-30-секундный образец диктора для создания высококачественной речи.
- Вход аудиопрефикса: Добавьте текстовые и звуковые префиксы для более точного подбора диктора.
- Поддержка нескольких языковПоддерживаются английский, японский, китайский, французский и немецкий языки.
- Качество звука и контроль эмоций: Обеспечивает тонкий контроль над многими аспектами генерируемого звука, включая скорость речи, изменение высоты тона, качество звука и эмоции (например, счастье, страх, печаль и гнев).
- Генерация речи в реальном времени: Поддерживает генерацию речи в реальном времени с высокой точностью.
Использование помощи
Процесс установки
- проект клонирования: Выполните следующую команду в терминале, чтобы клонировать проект Zonos:
bash
git clone https://github.com/Zyphra/Zonos.git
cd Zonos - Установка зависимостей: Используйте следующую команду для установки необходимых зависимостей Python:
bash
pip install -r requirements.txt - Скачать модельные веса: Загрузите необходимые веса модели из Huggingface и поместите их в каталог проекта.
Использование
- Модели для погрузки: Загрузите модель Zonos в среду Python:
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")
- Создайте речь: Предоставьте текст и образцы диктора для создания речевого вывода:
python
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)
cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate) - Использование интерфейса Gradio: Для генерации речи рекомендуется использовать интерфейс Gradio:
bash
При этом создается
uv run gradio_interface.py
# 或者
python gradio_interface.pysample.wav
файл, сохраненный в корневом каталоге проекта.
Подробный порядок работы функций
- Клонирование речи TTS с нулевым образцом::
- При вводе нужного текста и 10-30-секундного образца диктора модель генерирует высококачественную речь.
- Вход аудиопрефикса::
- Добавляйте текстовые и аудиопрефиксы для более точного подбора диктора. Например, аудиопрефиксы "шепот" можно использовать для создания эффектов шепота.
- Поддержка нескольких языков::
- Выберите нужный язык (например, английский, японский, китайский, французский или немецкий), и модель будет генерировать речь на соответствующем языке.
- Качество звука и контроль эмоций::
- Используйте функцию условных настроек модели, чтобы тщательно контролировать все аспекты генерируемого звука, включая скорость речи, изменение высоты тона, качество звука и эмоции (например, счастье, страх, печаль и гнев).
- Генерация речи в реальном времени::
- Используйте интерфейс Gradio или другие методы генерации в реальном времени, чтобы быстро создать высокоточную речь.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...