Step-Audio-AQAA - сквозная модель большого аудиоязыка от StepFun

Последние ресурсы по искусственному интеллектуОпубликовано 9 месяцев назад Круг обмена ИИ

44.5K 00

Что такое Step-Audio-AQAA?

Step-Audio-AQAA - это сквозная крупномасштабная модель аудиоязыка для задач "аудиозапрос-аудиоответ" (AQAA) от команды StepFun. Способность напрямую обрабатывать аудиоданные для генерации естественных и точных речевых ответов без использования традиционных модулей автоматического распознавания речи (ASR) и преобразования текста в речь (TTS) упрощает архитектуру системы и устраняет каскадные ошибки. Процесс обучения Step-Audio-AQAA включает мультимодальное предварительное обучение, контролируемую точную настройку (SFT), прямую оптимизацию предпочтений (DPO) и объединение моделей. Благодаря этим методам модель демонстрирует высокие результаты в таких сложных задачах, как управление эмоциями речи, ролевые игры и логические рассуждения. В бенчмарке StepEval-Audio-360 Step-Audio-AQAA превосходит существующие модели LALM по нескольким ключевым параметрам, демонстрируя мощный потенциал для сквозного речевого взаимодействия.

Основные характеристики Step-Audio-AQAA

Прямая обработка аудиовходов: Генерирует голосовые ответы непосредственно из исходного аудиосигнала, не прибегая к традиционным модулям автоматического распознавания речи (ASR) и преобразования текста в речь (TTS).
Бесшовное голосовое взаимодействие: Поддержка взаимодействия "голос - речь", пользователи могут задавать вопросы голосом, и модель отвечает непосредственно голосом, повышая естественность и плавность взаимодействия.
Регулировка эмоционального тона: Поддержка настройки эмоционального тона речи на уровне предложений, например, для выражения таких эмоций, как счастье, грусть или серьезность.
контроль речиПользователь может регулировать скорость голосового ответа по мере необходимости, чтобы сделать его более отзывчивым к потребностям сценария.
Регулировка тембра и высоты тона: Он может регулировать тон и высоту голоса в соответствии с командами пользователя, адаптируясь к различным ролям или сценариям.
многоязычное взаимодействие: Поддержка китайского, английского, японского и других языков для удовлетворения языковых потребностей различных пользователей.
Поддержка диалектов: Охват китайских диалектов, таких как сычуаньский и кантонский, для повышения применимости модели в конкретных регионах.
управление эмоциями с помощью голоса: Может генерировать голосовые ответы с определенными эмоциями в зависимости от контекста и команд пользователя.
ролевая игра (игра): Поддерживает воспроизведение определенных ролей в диалоге, например, клиент, учитель, друг и т.д., и генерирование голосовых ответов, соответствующих характеристикам роли.
Тесты на логическое мышление и знания: Может решать сложные задачи на логическое мышление и проводить викторины на знание предмета, генерируя точные голосовые ответы.
Высокое качество передачи голоса: Генерируйте высокоточные, естественные и плавные формы речи с помощью нейронных вокодеров, чтобы повысить удобство использования.
фонетическая когерентность: Сохраняйте связность и последовательность речи в длинных предложениях или абзацах, избегая речевых пауз или резких изменений.
Чередование текста и речи: Поддерживает чередование текстового и голосового вывода, позволяя пользователям выбирать голосовые или текстовые ответы по мере необходимости.
Понимание мультимодального ввода: Понимает смешанный ввод, содержащий речь и текст, генерируя соответствующие речевые реакции.

Адрес проекта Step-Audio-AQAA

Библиотека моделей HuggingFace:: https://huggingface.co/stepfun-ai/Step-Audio-AQAA
Технический документ arXiv:: https://arxiv.org/pdf/2506.08967

Технические принципы Step-Audio-AQAA

Аудиоразделитель с двумя кодовыми книгами: Преобразует входной аудиосигнал в структурированную последовательность лексем. Состоит из двух лексеров: лингвистический лексер извлекает фонемы и лингвистические атрибуты речи с частотой дискретизации 16,7 Гц и размером кодовой книги 1024, а семантический лексер фиксирует акустические особенности речи, такие как эмоции и интонации, с частотой дискретизации 25 Гц и размером кодовой книги 4096, что лучше отражает сложность информации в речи.
Магистратура LLM: Используется предварительно обученный мультимодальный LLM (Step-Omni) с 130 миллиардами параметров, данные предварительного обучения охватывают три модальности: текст, речь и изображение. Звуковые лексемы бикодового текста встраиваются в единое векторное пространство с помощью нескольких Трансформатор блоки для глубокого семантического понимания и извлечения признаков.
нейронный вокодер: Синтезирует сгенерированные звуковые лексемы в естественные, высококачественные формы речи. Архитектура U-Net в сочетании со слоем ResNet-1D и блоком Transformer эффективно преобразует дискретные звуковые лексемы в непрерывные речевые сигналы.

Основные преимущества Step-Audio-AQAA

Сплошное аудиовзаимодействиеStep-Audio-AQAA генерирует естественные, плавные голосовые ответы непосредственно из исходного аудиосигнала, избавляя от необходимости полагаться на традиционные модули автоматического распознавания речи (ASR) и преобразования текста в речь (TTS). Комплексная разработка позволяет избежать искажения результатов, вызванного ошибками в ASR или TTS в традиционных решениях.
Поддержка нескольких языков: Модель поддерживает несколько языков, включая китайский (в том числе сычуаньский и кантонский), английский, японский и т.д., что позволяет удовлетворить языковые потребности различных пользователей.
Тонкое управление голосовыми функциямиStep-Audio-AQAA обеспечивает тонкое управление голосовыми характеристиками, такими как эмоциональная интонация, темп речи и т. д., для создания более отзывчивых голосовых реакций. Особенно хорошо он справляется с управлением эмоциями голоса.

Для кого предназначен Step-Audio-AQAA?

Пользователи интеллектуального голосового помощника: Пользователи, которые хотят использовать устройства голосового взаимодействия (например, смарт-динамики, смарт-ассистенты) для выполнения повседневных операций (например, проверка информации, установка напоминаний, воспроизведение музыки и т. д.).
любитель игр: Геймеры, которые любят взаимодействовать с внутриигровыми NPC для более полного погружения в игровой процесс.
Пользователи образования: Студенты и родители, которые хотят учиться с помощью голосового взаимодействия (например, изучать язык, проводить викторины и т.д.).
Пожилые люди и дети: Голосовое взаимодействие более удобно и естественно для пользователей, которые не умеют пользоваться текстовым вводом.
создатель аудиокниг: Создатели, которым необходимо генерировать высококачественный голосовой контент, например аудиокниги, радиоспектакли и т. д.
видеопродюсерСоздатели, которым требуется голосовое взаимодействие или возможность генерации голоса при создании видеоконтента (например, коротких видеороликов, прямых трансляций).

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.