Сплошная голосовая модель в реальном времени Beanbag в режиме онлайн! IQ и EQ - онлайн, а китайский голосовой диалог летит с обрыва!
Сегодня Beanbag APP объявила, что новая функция сквозного голосового вызова в режиме реального времени официально доступна в сети, без игры в "предварительный релиз", прямо открыта для всех, бесплатна для всех, чтобы удовлетворить тест каждого пользователя.
Мегамодель речи в реальном времени Beanbag URL: https://team.doubao.com/realtime_voice
После просмотра мы обнаружили несколько замечательных моментов:
Во-первых, Beanbag действительно похож на человека, с очень антропоморфными фразами, тембром голоса и ритмами дыхания.Когда вы говорите на пониженной громкости, Beanbag также будет использовать свой навык "шепот", полностью устраняя ощущение человечности, присущее предыдущим голосовым вызовам ИИ.
Во-вторых, независимо от сложности китайского диалога, бобыль может держать себя в руках.После серии наших реальных опытов можно сказать, что Doubao обладает огромным преимуществом в знании китайского языка. Это преимущество не только по сравнению с ChatGPT и других зарубежных игроков, а также сравнить их с рядом отечественных приложений для ведения диалога с искусственным интеллектом.
Кроме того, Бинбэг - "болтливый автостопщик", который знает все - от астрономии до географии.Он всерьез прислушивается к словам пользователя и глубокому смыслу, который он пытается передать, быстро дает интересные и полезные ответы, а также обладает возможностью сетевых запросов.
Для того чтобы воспользоваться этой функцией, необходимо обновить DoudouBao APP до версии 7.2.0 Chinese New Year. После запуска, большое количество пользователей обновили и стекаются к Doubao в первый раз, и сделал телефон congee с Doubao:


Помните, как ранним утром 14 мая 2024 года GPT-4o неожиданно появился и принес ChatGPT новую возможность голосовых вызовов в реальном времени, которую в индустрии назвали "мировым потрясением". К сожалению, после того как ChatGPT запустил эту функцию, наши реальные впечатления оказались не такими впечатляющими, как в демонстрационной версии.
Теперь настала очередь Doubao потрясти мир. Прежде чем запустить эту функцию, внутренняя команда оценила Beanbag Real-time Voice Big Model и GPT-4o по ряду параметров, включая антропоморфность, полезность, эмоциональный интеллект, стабильность вызова, плавность диалога и т. д. Общая оценка удовлетворенности (из 5) составила 4,36 для 501Bao Real-time Voice Big Model и 3,18 для GPT-4o. По общей удовлетворенности (из 5) Beanbag Real-time Voice Big Model получил 4,36 балла, а GPT-4o - 3,18. Тестеры 50% оценили работу Beanbag Real-time Voice Big Model на 5 баллов.

Кроме того, при оценке достоинств модели речевая гранд-модель Doubao в реальном времени имеет очевидные преимущества в понимании эмоций и их выражении. В частности, при оценке "искусственный интеллект или нет" более 30% отзывов указали, что GPT-4o "слишком искусственный", в то время как соответствующая доля речевой гранд-модели Doubao в реальном времени была только в пределах 2%.
Следующая часть - это реальный тест сердца машины, если вам интересно его прочитать, мы предлагаем вам быстро открыть свое собственное приложение Bean Bag App и обновить версию до 7.2.0 New Year Edition, чтобы испытать его. В конце концов, судя по текущему градусу пожара, опоздание может иметь вероятность не выжать машину.
Испытание на собственном опыте: немного шокирующий, научно-фантастический фильм в реальности
В конце 2024 года команда Beanbag Big Model рассказала о новой сквозной голосовой функции реального времени, которая вскоре появится в приложении Beanbag App, вызвав волну предвкушения среди пользователей.
После использования мы убедились, что он действительно более антропоморфный и естественный, чем ожидалось.
Умение чувствовать и воспринимать эмоции пользователей - одна из главных особенностей Beanbag.Почему бы не послушать несколько наших разговоров с мешком-бобом, чтобы понять, насколько он антропоморфен?
Например, способность выражать эмоции позволяет ему показывать сложные эмоции голосом, что может быть достигнуто до степени "трудно отличить человека от машины".
Доубао кажется искусным актером, сталкивающимся с различными сценариями розыгрыша лотерейного билета стоимостью 5 миллионов юаней, временами восторженными, временами убитыми горем.
Способность следовать инструкциям также очень сильна. Мы смогли прочесть стихи в разных темпах речи, а также почувствовать эмоции в стихах и эмоционально их прочесть.
Сочувствие тоже берет свое. Когда наши первые слова были связаны с плохими новостями и разочарованием, боб-мешок успокаивал вас более спокойным и теплым тоном. Но когда вы вернетесь к позитивному настрою и переключитесь на более светлый тон, чтобы дополнить его, боб-мешок переключится на бодрый тон. У нее также будут паралингвистические особенности, похожие на человеческие, включая интонацию, колебания и паузы.
Примечание: некоторые ответы приходят с задержкой и связаны с сетевыми запросами.
В то же время мы чувствуем, что Doubao не просто обеспечивает эмоциональное общение, например, в первом диалоговом тесте он дает советы по приобретению билетов, рекомендации по поездкам, которые также очень практичны, и мгновенную информацию о погоде и другую мгновенную информацию, которую можно получить быстро и точно.
Да, за красноречивой речью Doubao стоят мощные семантические возможности понимания и поиска информации, которыми обладает модель Doubao, работающая в режиме реального времени. В момент голосового ввода пользователя Doubao немедленно начинает понимать глубину каждого измерения информации, чтобы обеспечить полезность и подлинность выводимой информации.Говоря простым языком, он имеет как "эмоциональную ценность", так и "практическую ценность".(Однако мы также обнаружили, что в настоящее время модель Doubao voice grand в режиме реального времени поддерживает только английский и китайский языки, и мы ожидаем, что в будущем многоязычные возможности могут быть расширены за счет волны).
Поскольку Beanbag уже давно "смешивается" с Интернетом, его уровень игры с абстракциями должен быть неплохим.
Примечание: некоторые ответы приходят с задержкой и связаны с сетевыми запросами.
Конечно, с Beanbag Conversations у вас не один попутчик, а бесчисленное множество друзей-драматургов.
В режиме "Сто перемен великих мастеров", от Короля Обезьян до Линь Дайю, от Волчицы до Ленивого Козла, управление голосом и интерпретация эмоций подняли пользовательский опыт Doubao на более высокий уровень.
Поскольку ролевая игра - не проблема, то и умение рассказывать истории тоже под рукой. Свободно переключайтесь между ужасом и весельем.
Интересно, что в Doubao APP появилась функция пения, которой нет в GPT-4o, - веселая игра для молодых и старых, а огонь не за горами.
Наступил конец года, так что пусть в завершение этого обзора будет несколько новогодних песен:
Какая технология лежит в основе превосходного качества звонков?
Как команде Beanbag удалось добиться такой шелковистости и естественности голосовых вызовов в реальном времени?
В поддержку основных возможностей этой функции недавно была запущена модель Beanbag Real-Time Voice Big Model.
По словам команды Beanbag Big Model Speech, это интегрированная модель для понимания и генерации речи, которая действительно обеспечивает сквозной голосовой диалог, более потрясающий, чем традиционная каскадная модель, с точки зрения выразительности голоса, контроля и эмоциональных обязательств, а также имеет преимущества низкой задержки и возможности прерывания в любое время во время диалога.
Если рассматривать область речевого ИИ, то существуют две технические трудности для макромоделирования речи в реальном времени на уровне реальной жизни.
Одна из них заключается в том, что трудно найти баланс между эмоциональным и интеллектуальным интеллектом.
Многие практики в области речи знают, что сама модель часто имеет противоречивые отношения между естественностью диалога, полезностью и измерениями безопасности. Иными словами, речь идет о том, как сделать модель не только "школьным хулиганом", обладающим способностью логически рассуждать онлайн, но и экспрессивным, сопереживающим, понимающим онлайн, а уровень эмоционального интеллекта подтянуть полностью.
По словам команды, они ориентированы на решение вышеуказанных проблем с точки зрения данных и алгоритмов посттренинга, чтобы обеспечить семантически корректные и экспрессивно естественные данные мультимодального речевого диалога. В то же время в основе лежит многораундовый подход к синтезу данных для получения высококачественных и выразительных речевых данных, обеспечивающий естественность и согласованность генерируемых речевых выражений.
Кроме того, команда регулярно проводит многомерную оценку модели, опираясь на ее результаты, чтобы своевременно корректировать стратегию обучения и использование данных, чтобы модель всегда поддерживала хороший баланс между IQ и производительностью.
Второе - высокий порог посадки, чтобы голосовая функция не останавливалась на Toy, это большой вызов комплексным способностям команды.
В прошлом ряд релизов сквозной голосовой связи, включая GPT-4o, демонстрировали только демо-версию, и даже если последующие возможности будут обнародованы, реальные возможности могут быть не признаны общественностью. Причина в следующем: функции процесса R&D требуют участия алгоритмов, инженерных, продуктовых, тестовых и других команд, не только для выяснения потребностей пользователей, но и для разделения технических оценочных измерений и показателей, а затем в процессе обучения модели, тонкой настройки и других процессов, так же необходимо, чтобы несколько команд тесно сотрудничали друг с другом. Наконец, когда продукт хочет выйти в интернет и обслуживать сотни миллионов пользователей, он также сталкивается с большими проблемами в области инженерии и безопасности.
Как упоминалось ранее, новая функция реального времени голос объявил этот Doubao официальный онлайн открыт, непосредственно обслуживает тысячи пользователей, команда также пытаются найти лучший баланс с точки зрения доставки опыт, для того, чтобы гарантировать безопасность основы, так что модель имеет беспрецедентный голос высокой выразительной силой, контроль и яркие эмоциональные способности, в то же время, чтобы убедиться, что он имеет сильное понимание и логические способности, но также может быть подключен к сети, чтобы ответить на своевременность вопрос .
В рамках совместного моделирования генерации речи, понимания и текстовой макромодели команда добилась возможности разнообразного ввода и вывода модели, и в то же время обеспечила точность генерации и естественность модели на стороне генерации в случае более низкой задержки системы, и в то же время, на стороне понимания, структура позволяет модели достичь возможности резкого прерывания речи и остановки диалога пользователя.
Разумеется, команда также придает большое значение вопросам безопасности, возникшим благодаря расширению возможностей моделирования. По словам соответствующих технических сотрудников, они внедрили различные механизмы безопасности на этапе после обучения в процессе совместного моделирования, чтобы снизить риски безопасности за счет эффективного подавления и фильтрации потенциально небезопасного контента.
Техническая команда также сообщила нам, что благодаря совместному моделированию модель удивительным образом обрела новые возможности, такие как понимание команд, воспроизведение голоса и голосовое управление. Например, некоторые диалекты и акценты модели теперь получаются в результате обобщения данных на этапе предварительной подготовки, а не в результате целенаправленного обучения. В этом отношении речевые модели очень похожи на языковые модели.
Что, помимо сюрпризов, "подрывает" Doubao?
Среди существующих подобных продуктов, мы можем почувствовать, что антропоморфизм и эмоциональный опыт Doubao является лучшим, и он владеет всеми 18 боевыми искусствами, а его знание китайского языка намного превосходит ChatGPT и другие "импортные продукты".
В конце концов, хочется спросить: помимо удивительного пользовательского опыта, почему обновленная система сквозной передачи голоса в реальном времени Beanbag привлекла к себе столько внимания?
Главный ответ: это первая сквозная китайская голосовая система, которая обслуживает сотни миллионов пользователей и действительно работает - это хорошо, и это бесплатно.
Когда-то голосовой диалог в реальном времени с искусственным интеллектом был лишь сценой из фантастического фильма и конкретной фантазией продвинутого искусственного интеллекта. Но теперь такая волшебная функция существует в приложении Doubao в вашем и моем мобильном телефоне, и она превратилась из "далекой" в "досягаемую".

Photo credit: The film Her
Если кратко резюмировать, то новый сквозной голос реального времени Beanbag создает два прецедента:
С точки зрения технологических изменений, Doubao впервые в индустрии вложила "душу" в ИИ и достигла двойного коэффициента "эмоционального коэффициента" и "коэффициента интеллекта" в режиме онлайн. Похоже, это означает конец эры традиционных голосовых помощников. Мы больше не чувствуем подсознательно, что разговариваем с моделью, обученной на огромном количестве данных, а люди и ИИ начали создавать тонкую эмоциональную связь, включая доверие и зависимость, и сюжет научно-фантастического фильма входит в жизнь общества.
Как и в классике вроде "Ее", люди полюбили ИИ не за то, что он дает неограниченные знания, а за то, что он приносит нужное количество эмоциональной ценности.
На уровне технологии больших моделей сквозные голосовые вызовы в реальном времени заполняют один из немногих пробелов в мультимодальном взаимодействии. Игровой процесс приложений больших моделей постоянно совершенствуется - будущие продукты могут получать на вход любую комбинацию текста, аудио и изображений и генерировать на выходе любую комбинацию текста, аудио и изображений в режиме реального времени. Взаимодействие людей и машин меняется, что, в свою очередь, приводит к трансформации взаимодействия людей друг с другом.
По крайней мере, для китайскоговорящих пользователей запуск функции сквозной передачи голоса в реальном времени в Doubao обеспечивает способ взаимодействия, опосредованный естественным человеческим языком, который действительно преодолевает барьер для доступа и использования передового ИИ.
Если вернуться на полгода назад, могли ли мы предположить, что именно бобы станут лидером в создании истории?
Начиная с большой языковой модели в 2023 году и заканчивая 2024 годом, семейство больших моделей Doubao было завершено на мультимодальных уровнях изображения, голоса, музыки, видео, 3D и т.д. Оно не только вошло в первый эшелон в Китае, но и завершило метаморфозу от "новичка" до "сокрушителя мира" всего за несколько месяцев.
И тот, кто первым достигнет этого рубежа на большом модельном треке из ста лодок, может определить свое место в области на ближайшее десятилетие.
В следующем году о больших моделях, о бобах-мешках и бытовом искусственном интеллекте будут двигаться вперед с какой скоростью, более достойной наших ожиданий.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...