Zonos: высококачественный синтез речи и инструменты для клонирования речи

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

68.8K 00

Общее введение

Zonos - это инструмент для синтеза и клонирования речи с открытым исходным кодом, разработанный компанией Zyphra.В версии Zonos-v0.1 используется расширенный Трансформатор Функция клонирования речи Zonos генерирует высококачественную речь всего через несколько секунд эталонного аудио. Инструмент поддерживает множество языков, включая английский, японский, китайский, французский и немецкий, и предлагает тонкий контроль над качеством звука и эмоциями, а функция клонирования речи Zonos генерирует очень естественную речь после предоставления всего нескольких секунд эталонного аудио. Пользователи могут получить весовые коэффициенты модели и код примера через GitHub и опробовать его на Huggingface.

Список функций

Клонирование речи TTS с нулевым образцом: Ввод текста и 10-30-секундный образец диктора для создания высококачественной речи.
Вход аудиопрефикса: Добавьте текстовые и звуковые префиксы для более точного подбора диктора.
Поддержка нескольких языковПоддерживаются английский, японский, китайский, французский и немецкий языки.
Качество звука и контроль эмоций: Обеспечивает тонкий контроль над многими аспектами генерируемого звука, включая скорость речи, изменение высоты тона, качество звука и эмоции (например, счастье, страх, печаль и гнев).
Генерация речи в реальном времени: Поддерживает генерацию речи в реальном времени с высокой точностью.

Использование помощи

Процесс установки

проект клонирования: Выполните следующую команду в терминале, чтобы клонировать проект Zonos: bash git clone https://github.com/Zyphra/Zonos.git cd Zonos
Установка зависимостей: Используйте следующую команду для установки необходимых зависимостей Python: bash pip install -r requirements.txt
Скачать модельные веса: Загрузите необходимые веса модели из Huggingface и поместите их в каталог проекта.

Использование

Модели для погрузки: Загрузите модель Zonos в среду Python:

import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

Создайте речь: Предоставьте текст и образцы диктора для создания речевого вывода: python wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us") conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
Использование интерфейса Gradio: Для генерации речи рекомендуется использовать интерфейс Gradio: bash uv run gradio_interface.py # 或者 python gradio_interface.py При этом создается sample.wav файл, сохраненный в корневом каталоге проекта.

Подробный порядок работы функций

Клонирование речи TTS с нулевым образцом::
- При вводе нужного текста и 10-30-секундного образца диктора модель генерирует высококачественную речь.
Вход аудиопрефикса::
- Добавляйте текстовые и аудиопрефиксы для более точного подбора диктора. Например, аудиопрефиксы "шепот" можно использовать для создания эффектов шепота.
Поддержка нескольких языков::
- Выберите нужный язык (например, английский, японский, китайский, французский или немецкий), и модель будет генерировать речь на соответствующем языке.
Качество звука и контроль эмоций::
- Используйте функцию условных настроек модели, чтобы тщательно контролировать все аспекты генерируемого звука, включая скорость речи, изменение высоты тона, качество звука и эмоции (например, счастье, страх, печаль и гнев).
Генерация речи в реальном времени::
- Используйте интерфейс Gradio или другие методы генерации в реальном времени, чтобы быстро создать высокоточную речь.