세서미, 대화형 음성 모델 CSM 출시: AI 음성 상호작용을 더욱 자연스럽게 만드는 방법

53.9K 00

브렌단 이리브, 안킷 쿠마르, 세서미 팀의 최근 블로그 게시물에서는 대화형 음성 생성 분야의 최신 연구인 대화형 음성 모델(CSM)에 대해 설명합니다. CSM). 이 모델은 현재의 음성 비서 상호작용에서 감정과 자연스러움이 부족한 문제를 해결하여 AI 음성 상호작용을 인간 수준에 가깝게 만들 수 있도록 설계되었습니다.

'음성 존재감'을 찾기 위해 '공포의 계곡'을 건너기.

세서미 팀은 음성은 인간에게 가장 친밀한 소통 수단이며 문자 그대로의 의미를 넘어서는 풍부한 정보를 담고 있다고 믿습니다. 하지만 기존 음성 비서는 감정 표현이 부족하고 톤이 밋밋한 경우가 많아 사용자와 깊은 유대감을 형성하기 어려웠습니다. 이러한 음성 비서를 장시간 사용하면 사용자는 실망감을 느낄 뿐만 아니라 피곤함까지 느끼게 됩니다.

이 문제를 해결하기 위해 세서미는 음성 상호작용이 실제적이고 이해되고 가치 있게 느껴지는 '음성 존재감'이라는 개념을 개발했으며, CSM 모델은 이 목표를 향한 핵심 단계입니다. 세서미 팀은 단순한 도구가 아니라 사용자와 신뢰 관계를 구축하는 대화 파트너라는 점을 강조합니다.

'음성 존재감'을 확보하는 것은 쉬운 일이 아니며 다음과 같은 핵심 요소의 조합이 필요합니다:

감성 지능: 사용자의 기분 변화를 인식하고 이에 대응하세요.
대화 역학: 말의 속도, 멈춤, 끼어들기, 강조 등 대화의 자연스러운 리듬을 파악하세요.
상황 인식: 다양한 대화 시나리오에 맞게 어조와 표현을 조정합니다.
일관된 성격: AI 어시스턴트 성격의 일관성과 신뢰성을 유지하세요.

CSM 모델: 단일 단계, 멀티모달, 더 효율적

이러한 목표를 달성하기 위해 세서미 팀은 엔드투엔드 멀티모달 학습 프레임워크를 사용하여 대화 기록의 정보를 사용해 보다 자연스럽고 일관성 있는 음성을 생성하는 새로운 대화형 음성 모델인 CSM을 제안했습니다.

기존 텍스트 음성 변환(TTS) 모델과 달리 CSM 모델은 RVQ(잔여 벡터 양자화) 토큰에서 직접 작동합니다. 이 설계는 기존 TTS 모델에서 의미론적 토큰으로 인해 발생할 수 있는 정보 병목 현상을 방지하여 음성의 뉘앙스를 더 잘 포착할 수 있습니다.

CSM 이 모델의 아키텍처 디자인도 매우 인상적입니다. 이 모델은 두 개의 자동 회귀 트랜스포머를 사용합니다:

멀티모달 백본: 인터리브된 텍스트 및 오디오 정보를 처리하여 RVQ 코드북의 레이어 0을 예측합니다.
오디오 디코더: 각 코드북마다 다른 선형 헤더를 사용하여 나머지 N-1 레이어가 음성을 재구성할 것으로 예측됩니다.

이 설계를 통해 디코더를 트렁크보다 훨씬 작게 만들 수 있으므로 모델을 종단 간으로 유지하면서 지연 시간이 짧은 음성을 생성할 수 있습니다.

CSM 모델 추론 프로세스

또한 훈련 과정에서 메모리 병목 문제를 해결하기 위해 세서미 팀은 계산 할당 방식을 제안했습니다. 이 방식은 오디오 프레임의 무작위 하위 집합에 대해서만 오디오 디코더를 훈련시켜 모델 성능에 영향을 주지 않으면서 메모리 소비를 크게 줄입니다.

교육 과정 할당

실험 결과: 인간 수준에 가깝지만 여전히 격차가 있습니다.

세서미 팀은 약 100만 시간의 영어 오디오가 포함된 데이터셋으로 CSM 모델을 훈련하고 다양한 지표를 사용해 모델 성능을 철저하게 평가했습니다.

평가 결과에 따르면 CSM 모델은 단어 오류율(WER) 및 화자 유사성(SIM)이라는 기존 지표에서 인간 수준에 근접한 것으로 나타났습니다.

단어 오류율 및 화자 유사성 테스트

발음과 문맥 이해에 대한 모델의 능력을 보다 심층적으로 평가하기 위해 세서미 팀은 동음이의어 불명확성 및 발음 일관성 테스트를 포함한 새로운 음성 전사 기반 벤치마크 테스트 세트도 도입했습니다. 그 결과 CSM 모델이 이러한 영역에서도 우수한 성능을 보였으며, 모델 크기가 커질수록 성능이 향상되는 것으로 나타났습니다.

동음이의어 모호성 및 발음 일관성 테스트

그러나 주관적인 평가 측면에서 CSM 모델과 실제 사람의 말하기 사이에는 여전히 차이가 있습니다. Sesame 팀은 Expresso 데이터 세트를 사용하여 두 가지 비교 평균 의견 점수(CMOS) 연구를 수행했습니다. 그 결과, 문맥 정보가 없을 때 청취자들은 CSM으로 생성된 음성과 실제 사람의 음성에 대해 비슷한 선호도를 보였습니다. 그러나 문맥 정보가 제공되었을 때 청취자들은 실제 사람의 음성을 훨씬 더 선호했습니다. 이는 대화의 미묘한 리듬 변화를 포착하는 데 있어 CSM 모델에 아직 개선의 여지가 있음을 시사합니다.

Expresso 데이터 세트에 대한 주관적 평가 결과

오픈 소스 공유, 향후 전망

오픈 소스의 정신에 따라 Sesame 팀은 커뮤니티의 상호 발전을 위해 CSM 모델의 주요 구성 요소를 오픈 소스화할 계획입니다.

https://github.com/SesameAILabs/csm

CSM 모델은 상당한 진전을 이루었지만 여전히 영어를 주로 지원하는 등 몇 가지 한계가 있으며 다국어 기능은 개선이 필요합니다. 세서미 팀은 앞으로 모델 크기를 계속 확장하고 데이터 세트 용량을 늘리며 지원 언어를 확대하고 사전 학습 언어 모델의 사용을 모색하여 CSM 모델의 성능을 더욱 향상시킬 것이라고 말했습니다. 세서미 팀은 향후 연구 방향에 대해 자신감을 가지고 있습니다. 세서미 팀은 AI 대화의 미래는 풀 듀플렉스 모델, 즉 데이터에서 대화 역학을 암묵적으로 학습할 수 있는 모델에 있다고 확신합니다.

전반적으로 세서미가 공개한 CSM 모델은 대화형 음성 생성 분야에서 중요한 진전을 이룬 것으로, 보다 자연스럽고 감성적인 AI 음성 상호작용을 구축하기 위한 새로운 아이디어를 제공합니다. 아직 개선의 여지가 남아있지만, Sesame 팀의 오픈 소스 정신과 미래에 대한 계획은 기대할 만합니다.