Parler-TTS: генерирование моделей преобразования текста в речь с учетом особенностей говорящего на основе входного текста

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

67.7K 00

Общее введение

Parler-TTS - это библиотека моделей преобразования текста в речь (TTS) с открытым исходным кодом, разработанная Hugging Face для генерации высококачественной, естественно звучащей речи. Модель способна генерировать речь с определенным стилем диктора (например, полом, тоном, манерой речи и т. д.) на основе входного текста.Parler-TTS основана на результатах исследований в статье "Natural language guidance of high-fidelity text-to-speech with synthetic Parler-TTS основана на результатах исследования, проведенного в статье "Natural language guidance of high-fidelity text-to-speech with synthetic annotations", и имеет полностью открытый исходный код, все наборы данных, препроцессинг, обучающий код и веса находятся в открытом доступе, что позволяет сообществу развивать и улучшать их.

Список функций

Генерация высококачественной речи: Генерируйте естественную и плавную речь с поддержкой нескольких стилей речи.
открытый исходный кодВсе весовые коэффициенты кодов и моделей находятся в открытом доступе для развития и совершенствования сообщества.
Легкие зависимости: Простой в установке и использовании, с небольшим количеством зависимостей.
Несколько вариантов моделей: Доступны версии модели с различным количеством параметров, например, Parler-TTS Mini и Parler-TTS Large.
Быстрая генерация: Оптимизированная скорость генерации с поддержкой SDPA и Flash Attention 2.
Наборы данных и весовые коэффициенты: Предоставляет богатые наборы данных и предварительно обученные веса моделей для легкого обучения и тонкой настройки.

Использование помощи

Процесс установки

Убедитесь, что среда Python установлена.
Используйте следующую команду для установки библиотеки Parler-TTS:

   pip install git+https://github.com/huggingface/parler-tts.git

Для пользователей Apple Silicon выполните следующую команду для поддержки bfloat16:

   pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

Использование

Генерируйте случайную речь

Импортируйте необходимые библиотеки:

   import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

Загрузка моделей и разделителей:

   device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

Вводите текст и генерируйте речь:

   prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output.wav", outputs.cpu().numpy(), 22050)

Создавайте речь в определенном стиле

Описания, в которых используется стиль конкретного оратора:

   description = "A male speaker with a deep voice and slow pace."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output_specific.wav", outputs.cpu().numpy(), 22050)

Модели обучения

Загрузите и подготовьте набор данных.
Обучение модели осуществляется с помощью предоставленного обучающего кода:

   python train.py --dataset_path /path/to/dataset --output_dir /path/to/output

Оптимизированное рассуждение

Оптимизировано с помощью SDPA и Flash Attention 2:

   model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1", use_flash_attention=True).to(device)

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI преобразование текста в речь

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型

Последние ресурсы по искусственному интеллекту

2 месяца назад

024.6K

Nail Yihu - платформа Ali для разработки приложений с низким уровнем кодирования

Последние ресурсы по искусственному интеллекту

10 месяцев назад

0104.4K

Synthx: освоение написания слов-ключей ИИ с помощью игрового обучения

Последние ресурсы по искусственному интеллекту Образовательные инструменты # AI

1 год назад

051.5K

Enchanted: мультимодальное приложение для чата с нативной поддержкой приватной модели для iOS и macOS

Последние ресурсы по искусственному интеллекту Локализованное чат-приложение # AI

1 год назад

070.8K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Parler-TTS: генерирование моделей преобразования текста в речь с учетом особенностей говорящего на основе входного текста

Общее введение

Список функций

Использование помощи

Процесс установки

Использование

Генерируйте случайную речь

Создавайте речь в определенном стиле

Модели обучения

Оптимизированное рассуждение

OpenAOE: Large Model Group Chat Framework: одновременное общение с несколькими большими языковыми моделями

Рекомендуемый Github - отличный инструмент для загрузки открытых источников

Похожие статьи

Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型

Nail Yihu - платформа Ali для разработки приложений с низким уровнем кодирования

Synthx: освоение написания слов-ключей ИИ с помощью игрового обучения

Enchanted: мультимодальное приложение для чата с нативной поддержкой приватной модели для iOS и macOS

Нет комментариев

Последние коллекции

Последние статьи

Parler-TTS: генерирование моделей преобразования текста в речь с учетом особенностей говорящего на основе входного текста

Общее введение

Список функций

Использование помощи

Процесс установки

Использование

Генерируйте случайную речь

Создавайте речь в определенном стиле

Модели обучения

Оптимизированное рассуждение

OpenAOE: Large Model Group Chat Framework: одновременное общение с несколькими большими языковыми моделями

Рекомендуемый Github - отличный инструмент для загрузки открытых источников

Похожие статьи

Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型

Nail Yihu - платформа Ali для разработки приложений с низким уровнем кодирования

Synthx: освоение написания слов-ключей ИИ с помощью игрового обучения

Enchanted: мультимодальное приложение для чата с нативной поддержкой приватной модели для iOS и macOS

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи