Пусть текст говорит сам за себя: что лучше выбрать из головокружительного множества инструментов TTS?

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

67.9K 00

Сегодня мы поговорим о технологии, которая становится все более популярной, - text-to-speech, также известной как TTS (Text-to-Speech). Проще говоря, она заключается в том, чтобы позволить компьютеру зачитывать текст и читать его как человеческую речь. За последние несколько лет, начиная с дубляжа коротких видеороликов, создания аудиокниг и заканчивая интеллектуальным обслуживанием клиентов, виртуальными помощниками, фигура TTS стала повсеместной. На рынке существует бесконечное множество инструментов, одни бесплатные, другие платные, одни с открытым исходным кодом, другие с закрытым; есть простые и легкие в использовании онлайн-сервисы, а есть и библиотеки разработки, требующие определенного технического порога. Столкнувшись с таким количеством вариантов, как обычному пользователю или разработчику выбрать то, что ему подходит?

Не волнуйтесь, сегодня мы рассмотрим некоторые из самых популярных и представительных инструментов TTS, представленных на рынке, и узнаем, на что они способны и где их можно использовать.

Простота использования, тип "из коробки

Для пользователей, которые не хотят возиться с кодом и просто хотят быстро сгенерировать речь, предпочтительнее использовать ряд онлайн-сервисов и готовых инструментов.

TTS Maker: Это бесплатный (коммерчески доступный) онлайн-инструмент. Его преимущество в том, что он поддерживает огромное количество языков, более 50, и даже включает такие диалекты, как северо-восточный и кантонский, с широким выбором тонов. Это хорошая отправная точка для создателей коротких видеороликов, подкастов или тех, кому нужен многоязычный контент. Однако конкретная техническая модель, лежащая в его основе, четко не описана, и он может оказаться не таким естественным и контролируемым по звучанию, как более профессиональные инструменты.
Edge-TTS: Это не совсем отдельный сервис, но кто-то инкапсулировал функциональность TTS, встроенную в браузер Edge от Microsoft, в библиотеку Python. Хорошо то, что звонить легко и бесплатно, а качество голоса довольно хорошее, в конце концов, за этим стоит технология Microsoft. Также поддерживается множество языков и тонов (40+ языков, 300+ тонов). Недостатком является то, что он полагается на интерфейс Microsoft, стабильность и долговременная доступность могут меняться, а возможности настройки ограничены. Подходит для легких приложений или персональных проектов для быстрой интеграции.

Бизнес-гиганты и услуги профессионального уровня

Если вам нужно первоклассное качество голоса, высокая степень стабильности и множество возможностей настройки, то коммерческий сервис, как правило, является лучшим вариантом, но, конечно, за него тоже нужно платить.

Microsoft Azure TTS: Это один из признанных эталонов в индустрии. Основанная на технологии нейронных сетей, синтезированная речь настолько естественна и плавна, что ее практически невозможно испортить. Он предлагает богатые возможности управления эмоциями и возможность тонкой настройки произношения, темпа речи, пауз и т. д. с помощью SSML (Speech Synthesis Markup Language). Благодаря поддержке более 140 языков и 400 тонов, это первый выбор для корпоративных приложений, высококачественных аудиокниг и профессиональных виртуальных помощников. И, конечно, цена соответствует корпоративному классу.
Seed-TTS: Это технология, разработанная компанией ByteDance, и на данный момент она, похоже, не полностью открыла доступ к своей основной модели. Судя по техническому отчету, она характеризуется возможностью редактирования голосового контента и точного контроля скорости речи, что, похоже, очень подходит для пост-продакшна аудиокниг или сценариев, требующих тонкой настройки голосового контента. В настоящее время в основном для китайского языка, специфическая форма продукта и доступ к официальному последующему релизу.
Голосовой движок (от OpenAI?): В оригинальной статье упоминается это название, но следует отметить, что OpenAI, похоже, официально не раскрывала название этой системы. Voice Engine На рынке могут присутствовать сторонние реализации, основанные на технологии OpenAI (например, GPT), или ссылки на ее внутренние исследовательские проекты. На рынке могут быть сторонние реализации, основанные на технологии OpenAI (например, GPT), или ссылки на ее внутренние исследовательские проекты. OpenAI сильна в речевых технологиях и привлекает большое внимание своими возможностями клонирования и генерации речи, но пока не существует сервиса, который бы прямо назывался Voice Engine Общедоступные продукты доступны для прямого использования всеми желающими, и при их использовании необходимо проверять источники информации.

Сила сообществ с открытым исходным кодом: свобода и возможность настройки

Для разработчиков и исследователей инструменты TTS с открытым исходным кодом предоставляют большую свободу и возможности для настройки. Вы можете глубже понять принципы модели, модифицировать и обучать ее в соответствии со своими потребностями.

PaddleSpeech: Проект с открытым исходным кодом от Baidu Flying Paddle, специально оптимизированный для поддержки китайского языка. Одной из его особенностей является поддержка потокового синтеза, что означает, что он может быть сгенерирован во время игры, низкая задержка, очень подходит для необходимости реагирования на сцену в реальном времени, например, голосовое вещание в реальном времени, интеллектуальное обслуживание клиентов. Он основан на FastSpeech2 ответить пением HiFiGAN и другие распространенные модели.
Coqui TTS: Это очень активный проект с открытым исходным кодом, ранее известный как Mozilla TTS, главным преимуществом которого является большая библиотека предварительно обученных моделей, поддерживающих более 1100 языков (на основе модели XTTS), что очень ценно для приложений, которым необходимо работать с несколькими языками, особенно с языками с низким уровнем ресурсов. Сообщество активно и хорошо документировано.
Кора: By Suno AI (известная своей генерацией музыки) была разработана, и особенностью ее является то, что она генерирует не только речь, но и неречевые звуки, такие как музыкальные клипы, фоновый шум, смех, плач и т.д., а также поддерживает смешение нескольких языков. Это дает ему уникальный потенциал для использования в творческих аудиопроектах, звуковом дизайне игр и других областях. В основе программы лежит Трансформатор Архитектура.
TensorFlowTTS: Как следует из названия, это инструментарий TTS на основе TensorFlow. Он поддерживает множество популярных моделей TTS, таких как Tacotron 2, иFastSpeech2 и т.д., в сочетании с MelGAN и использование вокодера. Это отличный вариант для разработчиков, знакомых с экосистемой TensorFlow, и тех, кто проводит академические исследования, чтобы облегчить эксперименты с моделями и разработку собственных решений.
Рыбная речь: Этот проект посвящен смешанной многоязычной генерации, например, естественному переключению между китайским, английским и японским языками в одном предложении. Он поддерживает VITS2, иBert-VITS2 и другие архитектуры более новых моделей. Привлекателен для таких сценариев, как создание многоязычных подкастов, дубляж фильмов и телепередач и т. д.
ChatTTS: Модель с открытым исходным кодом, оптимизированная специально для диалоговых сценариев. Она отлично справляется с диалогами на английском и китайском языках, генерируя речь с естественными эмоциональными характеристиками (например, смех, колебания, паузы в тоне), что делает синтезированные диалоги более реалистичными и интерактивными. Утверждается, что он был предварительно обучен на 40 000 часах данных.

Клонирование голоса: обладайте эксклюзивным голосом

Технология клонирования голоса позволяет использовать небольшое количество (иногда даже всего несколько секунд или минуту) образца чьего-то голоса для синтеза голоса, который говорит голосом этого человека. Эта технология интересна, но в ней есть этические риски, и при ее использовании важно соблюдать законы, правила и этические нормы.

GPT-SoVITS: Это сочетание SoVITS (популярная модель для синтеза песен и преобразования речи) и GPT Это проект с открытым исходным кодом. Он утверждает, что достигает хорошего эффекта клонирования с 1 минуты речи, а также имеет некоторую поддержку китайских диалектов. В настоящее время это одно из самых популярных решений для клонирования голоса в сообществе.
OpenVoice: By MyShell.ai Программа с открытым исходным кодом, которая не только клонирует голоса, но и обеспечивает тонкий контроль над клонированными голосами, например, настройку эмоций, акцента и интонации. Это делает его полезным в сценариях, требующих персонализации и выразительности, таких как дублирование рекламных роликов и многоязычные виртуальные помощники.
Клонирование голоса в реальном времени: Этот проект предоставляет графический интерфейс пользователя (GUI), который позволяет нетехническим пользователям относительно легко проводить эксперименты по клонированию речи. Он основан на SV2TTS Модели, которые могут работать не так хорошо, как новейшие, но выигрывают в простоте использования.
F5-TTS: Этот проект представляет технологию диффузионного трансформатора (DiT) для клонирования голоса с нулевого снимка, что означает возможность выполнения некоторой степени имитации или трансформации голоса без речевых данных целевого диктора, а также поддержку управления эмоциями. Это относительно новое направление исследований.
Птица-пересмешник: Это также более ранний проект клонирования речи с открытым исходным кодом, который привлек большое внимание. Несмотря на то, что технически он был превзойден более новыми программами, он все еще информативен для понимания развития технологии клонирования речи.

Другие инструменты, представляющие интерес

Есть также ряд инструментов, которые уникальны для каждого из них:

VoiceVox: Он предназначен в основном для японского языка, и особенно хорош для генерации звуков в стиле вторичного и аниме. Он очень популярен в сообществе японских тьюберов и креативщиков.
EmotiVoiceNetEaseYouDao с открытым исходным кодом, ориентированный на эмоциональный синтез речи, может генерировать речь с различными эмоциями, такими как счастье, гнев, печаль и радость.
MetaVoice-1B: Модель с открытым исходным кодом с 1B (миллиардом) параметров обычно подразумевает большую выразительную силу и более высокое качество речи, но также требует больше вычислительных ресурсов.
So-VITS-SVC: В основном используется для преобразования голоса певца, что позволяет исполнять песню голосом другого человека. SoVITS Важная отрасль техники.

Как выбрать?

Прочитав все это, вы, возможно, еще больше запутались. Не волнуйтесь, вот простая идея для выбора:

Постоянные пользователи, быстрые голоса: Попробуйте. TTS Maker Или узнайте, что основано на Edge-TTS онлайн-инструментов.
Разработчики, которые должны быть интегрированы в приложение:
- Высокое качество и постоянство в бюджетных условиях. Microsoft Azure TTS.
- Требуется китайская оптимизация и низкая задержка. PaddleSpeech.
- Требуется самый широкий спектр языковой поддержки. Coqui TTS.
- Хотите поиграть со звуком + идеи саундскейпов. Bark.
- знакомство с TensorFlow Экология. TensorFlowTTS.
- Необходимо обрабатывать многоязычные смеси. Fish Speech.
- Сосредоточьтесь на сценариях диалога. ChatTTS.
Хотите поиграть в клонирование голоса:
- Стремление к результатам и общественное тепло: The GPT-SoVITS возможно OpenVoice.
- Нужен графический интерфейс, простой в освоении. Real-Time-Voice-Cloning.
- Сосредоточьтесь на передовых технологиях. F5-TTS.
особое требование:
- Японские второстепенные голоса. VoiceVox.
- Богатая эмоциональная экспрессия. EmotiVoice.

Важно отметить, что для внедрения и использования проектов с открытым исходным кодом обычно требуется определенная техническая подготовка, а результаты могут потребовать самостоятельной отладки и оптимизации. Коммерческие сервисы, с другой стороны, обеспечивают более стабильные и простые в использовании интерфейсы, но требуют затрат.

Технология TTS развивается очень быстро, постоянно появляются новые модели и инструменты. Выбор инструмента в конечном итоге зависит от ваших конкретных потребностей, бюджета и технических навыков. Надеемся, что этот сборник поможет вам найти правильную отправную точку в этой быстро развивающейся области.

Краткое описание ссылок на соответствующие ресурсы

Чтобы вам было проще их найти, здесь собраны официальные адреса или адреса кодовых баз некоторых инструментов, упомянутых в статье:

TTS Maker: https://ttsmaker.com/zh-cn (онлайн-сервисы)
Microsoft Azure TTS:: https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/ (бизнес-услуги)
PaddleSpeech: https://github.com/PaddlePaddle/PaddleSpeech (с открытым исходным кодом)
VoiceVox: https://github.com/VOICEVOX/voicevox (с открытым исходным кодом)
TensorFlowTTS: https://github.com/TensorSpeech/TensorFlowTTS (с открытым исходным кодом)
Edge-TTS: https://github.com/rany2/edge-tts (библиотека с открытым исходным кодом)
ChatTTS: https://github.com/2noise/ChatTTS (с открытым исходным кодом)
Seed-TTS:: Технические отчеты, документы, инструменты оценки (основная модель не полностью с открытым исходным кодом)
Рыбная речь: https://github.com/fishaudio/fish-speech (с открытым исходным кодом)
GPT-SoVITS: https://github.com/RVC-Boss/GPTSoVITS (с открытым исходным кодом)
OpenVoice: https://github.com/myshell-ai/OpenVoice (с открытым исходным кодом)
Кора: https://github.com/suno-ai/bark (с открытым исходным кодом)
Coqui TTS: https://github.com/coqui-ai/tts (с открытым исходным кодом)
Клонирование голоса в реальном времени: https://github.com/CorentinJ/Real-Time-Voice-Cloning (с открытым исходным кодом)
F5-TTS: https://github.com/SWivid/F5-TTS (с открытым исходным кодом)
EmotiVoice: https://github.com/netease-youdao/EmotiVoice (с открытым исходным кодом)
MetaVoice-1B: https://github.com/metavoiceio/metavoice-src (с открытым исходным кодом)
So-VITS-SVC: https://github.com/svc-develop-team/so-vits-svc (с открытым исходным кодом)
Птица-пересмешник: https://github.com/babysor/MockingBird (с открытым исходным кодом)
FUNAudioLLM-CosyVoice: https://github.com/FunAudioLLM/CosyVoice (с открытым исходным кодом)
VoiceCraft: https://github.com/jasonppy/VoiceCraft (с открытым исходным кодом)
Parler-TTS: https://github.com/huggingface/parler-tts (с открытым исходным кодом)
MaskGCT:: https://hf-mirror.com/amphion/MaskGCT (зеркала с открытым исходным кодом)