Amazon выпускает BASE TTS, самую большую модель ИИ для преобразования текста в речь, демонстрируя "потенциальные возможности"

Новости ИИОпубликовано 2 года назад Круг обмена ИИ
6.1K 00
亚马逊发布目前最大型的文本语音转换人工智能模型BASE TTS展现了“潜在能力”

 

Исследователи Amazon обучили самую большую на сегодняшний день модель преобразования текста в речь, которая, как утверждается, демонстрирует "скрытые" качества, позволяющие более естественно передавать в речи сложные предложения. Этот прорыв может стать ключом к отказу от неестественности в этой области технологий.

 

Рост и совершенствование таких моделей продолжается, и исследователи ожидают увидеть скачок в возможностях, который мы наблюдаем, когда количество языковых моделей увеличивается до определенного уровня. По какой-то неизвестной причине, когда языковые модели (LLM) увеличиваются до определенного уровня, они становятся более мощными и гибкими, способными решать необучаемые задачи.

 

Это не означает, что модели обрели самосознание или другие подобные качества, скорее, после определенного момента выхода за пределы системы их производительность при выполнении конкретных задач разговорного ИИ резко возрастала. Команда искусственного общего интеллекта (AGI) Amazon, чья цель не является секретом, полагала, что то же самое может произойти по мере развития моделей преобразования текста в речь, и их исследование показывает, что так и произошло.

 

Новая модель называется [Крупномасштабное адаптивное потоковое преобразование текста в речь с потенциальными возможностями] (Big Adaptive Streamable TTS with Emergent abilities), или сокращенно BASE TTS. Самая большая версия модели использует 100 000 часов речевого материала, находящегося в открытом доступе, из которых 90% - на английском языке, а остальные - на немецком, голландском и испанском.

 

С 9,8 миллионами параметров BASE-large является самой большой моделью в этой области. Для сравнения они также обучили модели с 400 млн и 150 млн параметров на основе 10 000 и 1 000 часов аудиоматериала соответственно. Причина в том, что если одна модель демонстрирует потенциальное поведение, а другая - нет, то можно определить критические области, где это поведение начинает проявляться.

 

Результаты показали, что модель среднего размера продемонстрировала тот скачок в компетентности, на который рассчитывала команда, причем не только в качестве обычной речи (хотя показатели улучшились, но незначительно), но и в целом ряде потенциальных компетенций, которые команда наблюдала и оценивала. Вот несколько примеров сложных текстов, упомянутых в статье:

 

сложное существительное (грамматика): Бекхэмы решили снять очаровательный традиционный каменный загородный дом для отдыха.
эмоциональные потребности: "О Боже! Мы действительно едем на Мальдивы? Это невероятно!" визжала Дженни, подпрыгивая от восторга.
лексика иностранного языка:: "Мистер Генри славится своей великолепной кухней и организовал пир из семи блюд, каждое из которых представляет собой редкий деликатес.
Палеолингвистика(как в расшифровываемой нетекстовой части): "Тише, Люси, тише, мы не должны разбудить твоего брата", - прошептал Том, когда они осторожно прошли через детскую.
знак препинания: Она получила странное текстовое сообщение от брата: "Экстренный вызов на дом; пожалуйста, позвоните как можно скорее! Мама и папа волнуются. . # Family First.
Как задать вопрос: Но вопросы о выходе Великобритании из Европейского союза все еще висят в воздухе: после всех испытаний и невзгод найдут ли министры ответы в срок?
Синтаксическая сложностьДе Мойя, недавно получивший премию за достижения в жизни, в 2022 году снялся в фильме, который имел кассовый успех, несмотря на неоднозначные отзывы.

 

"Эти предложения были тщательно разработаны, чтобы включить сложные задачи разбора сложных структурированных предложений, применения фразового ударения к длинным составным существительным, создания эмоционального или шепотного произношения, правильного произношения слов или знаков препинания в иностранных языках, таких как "qi" или "@" - все задачи, которым BASE TTS не обучается в явном виде", - говорят авторы. Правильное произношение слов или постановка знаков препинания - это сложные задачи, которым BASE TTS не обучена", - говорят авторы.

 

Такие особенности, как правило, вызывают недовольство систем преобразования текста в речь, которые могут неправильно произносить слова, опускать их, использовать неподходящую интонацию или допускать другие ошибки. Хотя BASE TTS также сталкивается с трудностями, его вычислительная мощность значительно превосходит возможности современных моделей, таких как Tortoise и VALL-E.

 

На официальном сайте представлено множество примеров того, как эти сложные тексты можно читать вслух естественно и бегло.Посмотрите на сайте, который они создали для модели.] Конечно, эти примеры были проверены исследователями, так что они, должно быть, были отобраны вручную, но все равно это впечатляет. Вот несколько примеров на случай, если вы не захотите переходить по ссылке:

 

Поскольку три модели BASE TTS имеют одинаковую архитектуру, размер моделей и адекватность обучающих данных, очевидно, являются причиной того, что модели способны справиться с описанной выше сложностью. Обратите внимание, что в настоящее время это все еще экспериментальная модель и процесс обработки, а не коммерческая модель или аналогичный продукт. Последующие исследования должны будут определить переломный момент, когда будут продемонстрированы потенциальные возможности, а также способы эффективного обучения и развертывания окончательной модели.

 

Интересен тот факт, что модель может быть "потоковой", как следует из названия - это означает, что ей не нужно генерировать все предложение сразу, а можно генерировать его постепенно с относительно низкой скоростью передачи данных. Команда также пытается упаковать метаданные речи, такие как настроение и ритм, в отдельный поток с низкой пропускной способностью, который можно будет воспроизводить синхронно с обычным аудио.

 

Похоже, что моделирование текста в речь может стать прорывом в 2024 году - как раз к выборам! Однако полезность технологии неоспорима, особенно когда речь идет о повышении доступности. Важно отметить, что команда решила не раскрывать исходный код модели и другие данные, учитывая риск того, что модель может быть использована ничего не подозревающими людьми. Однако рано или поздно правда всплывет наружу.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...