DiaMoE-TTS - фреймворк для синтеза речи с открытым исходным кодом из нескольких диалектов, разработанный компаниями Tsinghua и Giant Network
Что такое DiaMoE-TTS?
DiaMoE-TTS - это система синтеза речи для нескольких диалектов, созданная Университетом Цинхуа и компанией Giant Network на основе Международного фонетического алфавита (IPA), которая решает проблемы нехватки диалектных данных, орфографической несогласованности и сложных фонологических изменений. Он устраняет междиалектные различия благодаря единому стандартизированному представлению фонем на основе IPA и использует архитектуру Mixture-of-Experts (MoE), учитывающую диалекты, чтобы позволить различным экспертным сетям сосредоточиться на изучении особенностей разных диалектов, сохраняя уникальный тембр и ритм каждого диалекта. В основе системы лежит F5-TTS Он построен с помощью адаптеров низкого ранга (LoRA) и условных адаптеров для достижения параметрически эффективной миграции диалектов, и для полного расширения диалектов требуется точная настройка лишь небольшого числа параметров. Обучение полностью основано на данных из открытых источников, что устраняет необходимость в дорогостоящей ручной маркировке речи и снижает технический порог. Эксперименты показывают, что DiaMoE-TTS генерирует естественную и выразительную речь, достигая производительности с нулевой выборкой для неизвестных диалектов и специализированных областей (например, пекинская опера), используя всего несколько часов данных. DiaMoE-TTS поддерживает 11 диалектов и мандарин, и может быть расширен до европейских языков.

Функциональные особенности DiaMoE-TTS
- Унифицированный фронт-энд IPA: Принятие Международного фонетического алфавита (IPA) в качестве входной системы, создание высокомасштабируемого инвентарного списка фонем, поддержка аннотации фонем для множества диалектов и языков, устранение междиалектных различий, обеспечение согласованности моделирования и возможности обобщения.
- Диалектно-ориентированная архитектура MoEПредставлена архитектура Mixture-of-Experts для диалектной осведомленности, в которой различные экспертные сети фокусируются на изучении особенностей разных диалектов, а динамический механизм контроля автоматически выбирает наиболее подходящие экспертные маршруты, сохраняя уникальный тембр и ритм каждого диалекта.
- Адаптация диалекта с низким уровнем ресурсовНиже приведен пример того, как можно добиться быстрой адаптации диалектов с низким уровнем ресурсов: благодаря эффективной стратегии миграции параметров расширение диалекта может быть достигнуто путем точной настройки лишь небольшого числа параметров, а основа может быть заморожена модулем MoE, что позволяет избежать забвения существующих знаний.
- Методы многоступенчатого обученияМодель разработана для постепенного улучшения производительности модели и адаптации к разнообразию диалектов, включая инициализацию миграции IPA, совместное обучение нескольким диалектам, повышение квалификации диалектных экспертов и быструю адаптацию к низким ресурсам.
- Накопитель открытых данных: Обученный полностью на открытых данных ASR, он устраняет необходимость в дорогостоящей ручной маркировке речи, снижает технический порог и поддерживает масштабируемый синтез речи на основе открытых данных.
- Эффективные возможности обобщенияСистема может достичь высокой точности произношения на диалектах с малым количеством ресурсов, например, 91,71 TP3T для хакка, и тестирования производительности с нулевой выборкой для неизвестных диалектов и специализированных областей (например, Пекинская опера).
- Богатые сценарии примененияОн поддерживает синтез речи на различных китайских диалектах и мандаринском языке, а также может быть расширен до европейских языков. Он применим в области защиты диалектов, культуры и развлечений, а также обеспечивает техническую поддержку наследования диалектов и развития культурной индустрии.
- полный набор инструментов: Предоставление скриптов обучения и вывода, предварительно обученных моделей и фронт-эндов IPA для открытых наборов данных, чтобы пользователи могли быстро приступить к работе и применить их, а также ускорить процесс исследований и разработок.
Основные преимущества DiaMoE-TTS
- Управление данными и открытый исходный код: Обучение, полностью основанное на данных из открытых источников, устраняет необходимость в дорогостоящей ручной маркировке речи, снижая технический порог и стоимость.
- Эффективные возможности обобщения: Высокая точность произношения по-прежнему может быть достигнута на диалектах с малым количеством ресурсов, а тесты с нулевой выборкой могут быть достигнуты для невидимых диалектов и специализированных областей (например, Пекинская опера).
- Сохранение и расширение диалектаОн поддерживает широкий спектр диалектов китайского языка и мандарина, а также может быть расширен до европейских языков, обеспечивая мощную поддержку сохранения диалектов и языкового разнообразия.
- Быстрая адаптация и миграцияРасширение нового диалекта осуществляется с помощью эффективной стратегии миграции параметров, которая требует лишь небольшой настройки параметров для быстрой адаптации к новому диалекту.
- естественный синтез речи: Созданная речь естественна и выразительна, а результаты экспериментов показывают, что она превосходит по качеству и выразительности.
Что является официальным сайтом DiaMoE-TTS?
- Репозиторий GitHub:: https://github.com/GiantAILab/DiaMoE-TTS
- Библиотека моделей HuggingFace:: https://huggingface.co/RICHARD12369/DiaMoE_TTS
- Технический документ arXiv:: https://www.arxiv.org/pdf/2509.22727
Люди, которым показан DiaMoE-TTS
- исследователь диалектов: Обеспечить эффективные инструменты для изучения фонологических особенностей и фонологической эволюции китайских диалектов и других языков, а также содействовать лингвистическим исследованиям.
- Разработчик синтеза речи: Предоставляются фреймворки с открытым исходным кодом и предварительно обученные модели, чтобы облегчить разработчикам быстрое создание и оптимизацию многодиалектных систем синтеза речи.
- Специалисты по сохранению диалектов: Внесите свой вклад в проект "Сохранение диалектов", который способствует языковому разнообразию, записывая и передавая исчезающие диалекты с помощью технологии синтеза речи.
- Практикующие специалисты в области культуры и развлечений: В кино, телевидении, радиовещании и играх он может использоваться для создания голосового контента с местными особенностями и повышения культурной выразительности.
- педагог: Он может быть использован для разработки ресурсов по преподаванию диалектов, чтобы помочь студентам изучать и понимать различные диалекты и способствовать языковому образованию.
- любитель технологий: Люди, интересующиеся синтезом речи и технологиями искусственного интеллекта, могут учиться и изучать их с помощью открытого кода и документации.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




