빈백 엔드투엔드 실시간 음성 그랜드 모델이 온라인 상태입니다! IQ와 EQ가 모두 온라인 상태이며 중국어 음성 대화가 절벽에서 벗어나고 있습니다!

60.5K 00

오늘 빈백 앱은 새로운 엔드투엔드 실시간 음성 통화 기능을 '사전 출시' 없이 모든 사용자에게 직접 무료로 공개하여 모든 사용자의 테스트를 충족하기 위해 공식적으로 온라인에 공개한다고 발표했습니다.

빈백 실시간 음성 메가모델 URL: https://team.doubao.com/realtime_voice

시청 후 몇 가지 좋은 점을 발견했습니다:

첫째, 빈백은 매우 의인화된 말투, 목소리 톤, 호흡 리듬으로 정말 인간과 비슷합니다.볼륨을 낮춰서 말하면 빈백은 '귓속말' 기술을 사용하여 기존 AI 음성 통화의 인간적인 느낌을 완전히 제거합니다.

둘째, 중국 대화의 복잡성에 관계없이 빈백은 스스로를 지킬 수 있습니다.일련의 실제 경험을 통해 두바오는 중국어 능력에서 압도적인 우위를 점하고 있다고 할 수 있습니다. 이러한 장점은 단순히 ChatGPT 및 기타 해외 업체와 비교하고, 다양한 국내 AI 대화 앱과도 비교합니다.

또한 빈백은 천문학부터 지리까지 모든 것을 알고 있는 '수다쟁이 히치하이커'입니다.사용자가 말하는 내용과 전달하려는 깊은 의미를 진지하게 경청하고, 흥미롭고 유용한 답변을 신속하게 제공하며, 네트워크 쿼리 기능을 갖추고 있습니다.

이 기능을 사용하려면 도우바오 앱을 7.2.0 구정 버전으로 업그레이드해야 합니다. 출시 후 많은 사용자가 업데이트하고 처음으로 두바오로 몰려들어 두바오로 전화죽을 만들었습니다:

2024년 5월 14일 이른 아침, 갑작스럽게 등장한 GPT-4o는 업계에서 "세상을 뒤흔든 출시"라고 불렀던 새로운 실시간 음성 통화 기능을 ChatGPT에 도입했습니다. 안타깝게도 이 기능이 적용된 ChatGPT가 출시된 후 실제 사용 경험은 출시 데모만큼 인상적이지 않았습니다.

이제 두바오가 세상을 뒤흔들 차례입니다. 출시에 앞서 내부 팀은 의인화, 유용성, 감성 지능, 통화 안정성, 대화 부드러움 등 다양한 측면에서 이 기능의 기반이 되는 Beanbag 실시간 음성 빅 모델과 GPT-4o를 평가했습니다. 50% 테스터들은 전반적인 만족도(5점 만점)에서 Beanbag 실시간 음성 빅 모델의 성능을 5점 만점에 4.36점, GPT-4o는 3.18점으로 평가했습니다.

또한 모델 장점 평가에서 두바오의 실시간 음성 그랜드 모델은 감정 이해와 감정 표현에서 분명한 장점이 있습니다. 특히 '첫 청각에서 인공지능인지 아닌지' 평가에서 30% 이상의 피드백이 GPT-4o가 "너무 인공지능"이라고 답한 반면, 두바오 실시간 음성 빅모델의 해당 비율은 2% 이내에 불과했습니다.

다음 부분은 기계의 심장에 대한 실제 테스트이므로 읽기에 관심이 있으시면 자신의 Bean Bag 앱을 빠르게 열고 버전을 7.2.0 새해 에디션으로 업그레이드하여 경험해 보는 것이 좋습니다. 결국, 현재의 화재 정도에서 늦게 가면 차를 쥐어 짜지 않을 확률이있을 수 있습니다.

직접 테스트: 다소 충격적인 공상 과학 영화가 현실이 되다

2024년 말, 빈백 빅모델 팀은 빈백 앱에 곧 출시될 새로운 엔드투엔드 실시간 음성 기능을 공개하며 사용자들의 기대감을 불러일으켰습니다.

실제로 사용해 본 결과, 예상보다 훨씬 더 의인화되고 자연스럽다는 느낌을 받았습니다.

사용자의 감정을 감지하고 표현하는 데 매우 능숙하다는 점은 Beanbag의 가장 큰 장점 중 하나입니다.빈백과의 대화를 통해 빈백이 얼마나 의인화되어 있는지 느껴보시는 건 어떨까요?

예를 들어 감정 표현 능력을 통해 목소리로 복잡한 감정을 표현할 수 있는데, 이는 '인간과 기계를 구분하기 어려울 정도'까지 구현할 수 있습니다.

두바오는 500만 위안 복권의 다양한 시나리오를 때로는 황홀하게, 때로는 슬픔에 잠긴 채로 연기하는 숙련된 배우처럼 보입니다.

지시를 따르는 능력도 매우 강합니다. 다양한 말의 속도로 시를 낭송할 수 있었고, 시 속의 감정을 느끼고 감성적으로 낭송할 수 있었습니다.

공감도 취합니다. 좌절감을 담은 나쁜 소식에 대해 처음 말을 건네면 빈백은 더 차분하고 따뜻한 어조로 사용자를 안심시킵니다. 하지만 긍정적인 마음을 되찾고 칭찬하기 위해 더 밝은 어조로 바꾸면 빈백은 활기찬 어조로 바뀝니다. 또한 억양, 머뭇거림, 멈춤 등 사람과 같은 반언어적 특성을 갖게 됩니다.

참고: 일부 응답은 지연될 수 있으며 네트워킹 쿼리로 인해 발생합니다.

예를 들어 첫 번째 대화 테스트에서 두바오는 티켓 구매에 대한 조언, 매우 실용적인 여행 추천, 날씨에 대한 즉각적인 정보 등 빠르고 정확하게 검색할 수 있는 정보를 제공하는 등 정서적인 교감만 제공하는 것이 아니라는 것을 느낄 수 있었습니다.

네, 두바오의 유창한 연설 뒤에는 두바오의 실시간 음성 그랜드 모델의 강력한 의미 이해 및 정보 검색 기능이 있습니다. 사용자가 음성을 입력하면 Doubao는 즉시 각 차원의 정보 깊이를 이해하기 시작하여 출력 정보의 유용성과 신뢰성을 보장합니다.쉽게 말해, '정서적 가치'와 '실용적 가치'를 모두 가지고 있습니다.(단, 현재 두바오의 실시간 음성 그랜드 모델은 영어와 중국어만 지원하고 있어 향후 다국어 기능이 강화될 수 있을 것으로 예상합니다.)

빈백은 오랫동안 인터넷과 '믹스'해왔기 때문에 추상화를 다루는 수준도 나쁘지 않을 것입니다.

참고: 일부 응답은 지연될 수 있으며 네트워킹 쿼리로 인해 발생합니다.

물론 빈백 대화에는 한 명의 히치하이커가 아니라 수많은 드라마 친구가 있습니다.

손오공에서 린대유, 늑대인간에서 게으른 염소까지 '위대한 거장의 백 가지 변화' 모드에서는 음성 제어와 감정 해석을 통해 두바오의 사용자 경험을 더 높은 수준으로 끌어올렸습니다.

롤플레잉이 문제되지 않으므로 스토리텔링 능력도 문제되지 않습니다. 공포와 유쾌함을 자유롭게 전환할 수 있습니다.

흥미롭게도 두바오 앱은 GPT-4o에는 없는 노래 기능을 도입하여 남녀노소 누구나 즐길 수 있는 재미있는 게임으로, 곧 출시가 임박했습니다.

연말이니 새해맞이 노래로 이 리뷰를 마무리해 보도록 하겠습니다:

훨씬 뛰어난 통화 경험의 배경에는 어떤 기술이 있을까요?

Beanbag 개발팀은 어떻게 이렇게 매끄럽고 자연스러운 실시간 음성 통화를 구현할 수 있었을까요?

이 기능의 핵심 기능을 지원하는 것은 최근 출시된 빈백 리얼타임 보이스 빅 모델입니다.

빈백 빅모델 스피치 팀에 따르면, 이는 음성 이해 및 생성을 위한 통합 모델로 엔드투엔드 음성 대화를 진정으로 구현하며, 음성 표현력, 제어 및 감정 표현 측면에서 기존의 캐스케이드 모델보다 뛰어나고 지연 시간이 짧고 대화 중 언제든지 중단할 수 있다는 장점이 있습니다.

음성 AI 분야를 살펴보면, 실생활 수준에서 실시간 음성 매크로 모델링에는 두 가지 기술적 어려움이 있습니다.

하나는 감성 지능과 지적 지능 사이의 균형을 맞추기가 어렵다는 점입니다.

스피치 분야의 많은 실무자들은 모델 자체가 대화의 자연스러움, 유용성 및 보안 차원 사이에 종종 모순적인 관계를 가지고 있다는 것을 알고 있습니다. 즉, 온라인에서 논리적 추론 능력뿐만 아니라 표현력, 공감 능력, 온라인 이해력, 감성 지능 수준을 모두 갖춘 '학교 왕따'로 모델을 만드는 방법입니다.

연구팀은 멀티모달 음성 대화 데이터가 의미적으로 정확하고 표현적으로 자연스러운지 확인하기 위해 데이터 및 사후 학습 알고리즘 측면에서 위의 문제를 지향하고 있다고 설명합니다. 동시에 고품질의 표현력이 뛰어난 음성 데이터를 생성하기 위해 다각적인 데이터 합성 접근 방식을 사용하여 생성된 음성 표현이 자연스럽고 일관성을 유지할 수 있도록 합니다.

또한 팀에서는 모델에 대한 정기적인 다차원 평가를 수행하여 그 결과에 따라 훈련 전략과 데이터 사용량을 적시에 조정하여 모델이 항상 IQ와 성능 간의 균형을 잘 유지할 수 있도록 합니다.

두 번째는 착륙의 높은 문턱으로, 음성 기능이 토이에서 멈추지 않도록 만드는 것은 팀의 종합적인 능력에 큰 도전입니다.

과거에는 GPT-4o를 포함한 많은 엔드 투 엔드 음성 릴리스가 데모 만 보여 주었고 후속 기능이 공개 되더라도 실제 기능은 대중이 인식하지 못할 수 있습니다. 그 이유는 R&D 프로세스의 기능에 알고리즘, 엔지니어링, 제품, 테스트 및 기타 팀의 참여가 필요하며 사용자 요구를 명확히 할뿐만 아니라 기술 평가 차원과 지표를 나누고 모델 훈련, 미세 조정 및 기타 프로세스에서 여러 팀이 서로 긴밀하게 협력해야하기 때문입니다. 마지막으로, 수억 명의 사용자에게 서비스를 제공하기 위해 제품을 온라인으로 출시하려는 경우 엔지니어링 및 보안 측면에서도 큰 도전에 직면하게 됩니다.

앞서 언급했듯이이 두 바오 공식 온라인에서 발표 한 새로운 실시간 음성 기능은 개방되어 수천 명의 사용자에게 직접 서비스를 제공하고 있으며, 팀은 또한 배달 경험 측면에서 최상의 균형을 찾고 기초의 보안을 보장하기 위해 모델이 전례없는 음성 높은 표현력, 제어 및 밝은 감정 사업 능력을 갖도록 동시에 강력한 이해력과 논리 능력을 갖도록하는 동시에 질문의 적시성에 답하기 위해 네트워크로 연결될 수 있도록 노력할 것입니다. .

음성 생성, 이해 및 텍스트 매크로 모델의 공동 모델링 프레임워크 하에서 팀은 모델의 다양한 입출력 능력을 달성했으며, 동시에 시스템 지연 시간이 짧은 경우 생성 측면에서 모델의 생성 정확도와 자연스러움을 보장하고, 동시에 이해 측면에서 모델이 날카로운 음성 중단 및 사용자 대화 중단 기능을 달성할 수 있도록 프레임워크를 구현했습니다.

물론 팀에서는 향상된 모델링 기능으로 인해 발생하는 보안 문제도 매우 중요하게 생각합니다. 관련 기술 직원에 따르면, 공동 모델링 프로세스의 훈련 후 단계에서 다양한 보안 메커니즘을 도입하여 잠재적으로 안전하지 않은 콘텐츠를 효과적으로 억제하고 필터링함으로써 보안 위험을 줄였습니다.

또한 기술팀은 공동 모델링을 통해 명령 이해, 음성 재생 및 음성 제어와 같은 새로운 기능을 갖춘 모델이 놀랍게도 등장했다고 밝혔습니다. 예를 들어, 모델의 일부 방언과 억양은 이제 목표 학습이 아닌 사전 학습 단계의 데이터 일반화에서 파생됩니다. 이 점에서 음성 모델은 언어 모델과 매우 유사합니다.

놀라움을 넘어 빈백이 '전복'한 것은 무엇일까요?

기존 유사 제품 중에서는 두바오의 의인화와 감성 체험이 가장 뛰어나고 18가지 스킬에 모두 능숙하며 중국어 능력은 ChatGPT 및 기타 "수입 제품"보다 훨씬 뛰어나다는 것을 느낄 수 있습니다.

놀라운 사용자 경험 외에도 Beanbag의 업데이트된 엔드투엔드 실시간 음성이 그토록 많은 관심을 받는 이유는 무엇일까요?

핵심은 수억 명의 사용자에게 서비스를 제공하고 실제로 작동하는 최초의 엔드투엔드 중국어 음성 시스템이며, 훌륭하고 무료라는 점입니다.

옛날 옛적에 인공지능과의 실시간 음성 대화는 공상과학 영화의 한 장면이자 첨단 인공지능에 대한 구체적인 상상에 불과했습니다. 하지만 이제 이러한 마법 같은 기능은 여러분과 제 휴대폰의 Doubao 앱에 존재하며, '멀리 있는 것'에서 '손이 닿는 것'으로 바뀌었습니다.

사진 출처: 영화 Her

간단히 요약하자면, 빈백의 새로운 엔드투엔드 실시간 음성은 두 가지 선례를 남겼습니다:

기술 변화의 수준에서 두바오는 업계 최초로 AI에 '영혼'을 불어넣어 온라인에서 '감성 지수'와 '지능 지수'의 이중 지수를 달성했습니다. 이는 전통적인 음성 비서 시대의 종말을 의미하는 것 같습니다. 우리는 더 이상 무의식적으로 방대한 양의 데이터로 학습된 모델과 대화하고 있다고 느끼지 않으며, 사람과 AI가 신뢰와 의존 등 미묘한 감정적 연결을 형성하기 시작하면서 공상과학 영화의 줄거리가 대중의 삶 속으로 들어오고 있습니다.

Her와 같은 고전 영화에서처럼, 인간은 무한한 지식을 제공하기 때문이 아니라 적절한 수준의 정서적 가치를 제공하기 때문에 AI와 사랑에 빠졌습니다.

빅 모델 기술 수준에서 엔드투엔드 실시간 음성 통화는 멀티모달 상호 작용의 몇 안 되는 공백 중 하나를 메웁니다. 빅 모델 애플리케이션의 게임플레이는 지속적으로 업그레이드되고 있으며, 미래의 제품은 텍스트, 오디오, 이미지의 모든 조합을 입력으로 받고 실시간으로 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성할 수 있습니다. 인간과 기계가 상호 작용하는 방식이 파괴되고 있으며, 이는 다시 인간과 인간이 상호 작용하는 방식에 변화를 가져오고 있습니다.

적어도 현재 중국어를 사용하는 사용자에게는 Doubao의 엔드투엔드 실시간 음성 기능 출시로 자연스러운 인간 언어를 매개로 한 상호 작용 방식을 제공함으로써 고급 AI에 대한 접근과 경험의 장벽을 완전히 허물 수 있게 되었습니다.

6개월 전으로 거슬러 올라가면, 역사를 만드는 데 앞장선 것이 빈백이었다는 사실을 상상할 수 있었을까요?

2023년 대형 언어 모델을 시작으로 2024년까지 이미지, 음성, 음악, 동영상, 3D 등 멀티 모달 수준에서 두바오의 대형 모델 제품군이 완성되어 중국 내 1급에 속할 뿐만 아니라 불과 몇 달 만에 '신생'에서 '세계를 뒤흔드는' 기업으로 변신을 완료했습니다.

그리고 100척의 보트로 구성된 대형 모델 트랙에서 이 이정표에 가장 먼저 도착하는 사람이 향후 10년간 이 분야에서 순위를 결정할 수 있습니다.

내년에는 대형 모델, 빈백 및 국내 AI에 대해 우리의 기대에 걸맞게 어떤 속도로 발전 할 것인지에 대해 설명합니다.