아마존, "잠재적 기능"을 보여주는 최대 규모의 텍스트 음성 변환 AI 모델인 BASE TTS 출시

36.6K 00

亚马逊发布目前最大型的文本语音转换人工智能模型BASE TTS展现了“潜在能力”

Amazon 연구원들은 지금까지 가장 큰 규모의 텍스트 음성 변환 모델을 훈련시켰으며, 이 모델은 복잡한 문장을 보다 자연스럽게 음성으로 출력할 수 있는 '잠재적' 특성을 보여준다고 합니다. 이러한 획기적인 발전은 이 기술 분야에서 부자연스러움에서 벗어날 수 있는 열쇠가 될 수 있습니다.

이러한 모델의 성장과 개선은 계속되어 왔으며, 특히 연구자들은 언어 모델이 일정 수준까지 확장되면 그 기능이 비약적으로 향상될 것으로 기대하고 있습니다. 알 수 없는 이유로 언어 장문 모델(LLM)이 특정 지점 이상으로 확장되면 학습되지 않은 작업도 처리할 수 있을 정도로 강력하고 유연해집니다.

이는 모델이 자기 인식이나 이와 유사한 속성을 갖게 되었다는 의미가 아니라 특정 초월 시점 이후 특정 대화형 AI 작업에서 성능이 급격히 상승하는 추세를 보였다는 의미입니다. Amazon 인공 일반 지능(AGI) 팀은 텍스트 음성 변환 모델이 진화함에 따라 이와 같은 일이 일어날 수 있다고 생각했고, 연구 결과 실제로 그렇게 되었습니다.

새 모델은 [잠재적 기능을 갖춘 대규모 적응형 스트리밍 텍스트 음성 변환(Emergent 능력을 갖춘 큰 적응형 스트리밍 가능 TTS) 또는 줄여서 BASE TTS라고 하며, 가장 큰 버전의 모델은 10만 시간의 공개 도메인 음성 자료를 활용하며, 이 중 90%는 영어이고 나머지는 독일어, 네덜란드어, 스페인어를 포함합니다.

980만 개의 파라미터를 가진 BASE-large는 이 분야에서 가장 큰 모델입니다. 비교를 위해 각각 10,000시간과 1,000시간의 오디오 자료를 기반으로 4억 개와 1억 5천만 개의 파라미터로 모델을 학습시켰는데, 그 이유는 한 모델에서 잠재적인 행동이 나타나고 다른 모델에서는 그렇지 않은 경우 이러한 행동이 나타나기 시작하는 중요한 영역을 식별할 수 있기 때문입니다.

그 결과, 중간 크기의 모델은 일반적인 말하기의 질(점수가 약간 향상되기는 했지만)뿐만 아니라 팀이 관찰하고 평가한 다양한 잠재적 역량에서 팀이 기대했던 역량 도약을 보여주었습니다. 다음은 논문에서 언급된 까다로운 텍스트의 몇 가지 예입니다:

복합 명사(문법)베컴 부부는 매력적인 전통 석조 시골 별장을 빌리기로 결정했습니다.
정서적 요구"세상에! 정말 몰디브에 가는 거예요? 믿기지 않아요!" 제니는 흥분한 나머지 위아래로 뛰어다니며 비명을 질렀습니다.
외국어 어휘:: "헨리 씨는 뛰어난 요리 솜씨로 유명하며, 각 코스마다 진귀한 별미로 구성된 7코스 만찬을 조율했습니다.
고고언어학(해독할 수 없는 비문자 부분): '쉿, 루시, 조용히 해, 네 동생 깨우면 안 돼' 톰이 조심스럽게 아기방으로 걸어가면서 속삭였습니다.
문장 부호동생으로부터 '집에 긴급 상황이 발생했으니 빨리 전화해 주세요'라는 기괴한 문자 메시지를 받았습니다. 엄마와 아빠가 걱정하고 있어요. # 가족이 우선입니다.'
질문하는 방법그러나 영국의 유럽연합 탈퇴에 대한 의문은 여전히 남아 있습니다. 모든 시련과 고난을 겪은 후 장관들이 제때 답을 찾을 수 있을까요?
구문 복잡성최근 평생 공로상을 수상한 드 모야는 2022년에 개봉한 영화에 출연하여 호평과 혹평이 엇갈렸지만 흥행에 성공했습니다.

"이 문장은 복잡한 구조의 문장 구문 분석, 긴 복합 명사에 구문 강세 적용, 감정적이거나 속삭이는 발음, '치' 또는 '@'와 같은 외국어의 단어나 구두점을 정확하게 발음하는 등의 까다로운 작업을 포함하도록 신중하게 설계되었습니다."라고 저자들은 설명합니다. 단어나 문장 부호를 정확하게 발음하는 것은 어려운 작업으로, BASE TTS가 명시적으로 학습하지 않는 작업입니다."라고 저자들은 말했습니다.

이러한 기능은 일반적으로 단어를 잘못 발음하거나, 단어를 생략하거나, 부적절한 억양을 사용하거나, 기타 오류를 일으키는 텍스트 음성 변환 엔진을 좌절시킵니다. BASE TTS도 어려움을 겪지만 처리 능력은 Tortoise 및 VALL-E와 같은 동시대 모델보다 훨씬 뛰어납니다.

공식 웹사이트에서는 이러한 어려운 텍스트를 자연스럽고 유창하게 소리 내어 읽는 방법에 대한 많은 예시를 제공합니다.이 모델을 위해 구축한 웹사이트에서 확인하세요.] 물론 이 사례들은 연구원들이 직접 선별한 것이기 때문에 엄선된 것임에 틀림없지만, 그래도 인상적인 사례들입니다. 클릭하지 않으실 경우를 대비해 몇 가지 사례를 소개합니다:

세 가지 BASE TTS 모델이 동일한 아키텍처를 공유하기 때문에 모델의 크기와 학습 데이터의 적절성이 위에서 설명한 복잡성을 처리할 수 있는 이유임이 분명합니다. 현재 이 모델은 아직 상용 모델이나 유사한 제품이 아닌 실험적인 모델 및 처리 흐름이라는 점에 유의하세요. 후속 연구를 통해 잠재적인 기능이 입증되는 티핑 포인트와 최종 모델을 효율적으로 훈련하고 배포하는 방법을 결정해야 합니다.

흥미로운 점은 이 모델이 이름에서 알 수 있듯이 '스트리밍'이 가능하다는 점입니다. 즉, 전체 문장을 한 번에 생성할 필요 없이 상대적으로 낮은 비트 전송률로 점진적으로 생성할 수 있다는 것입니다. 이 팀은 또한 기분이나 리듬과 같은 음성 메타데이터를 별도의 저대역폭 스트림으로 패키징하여 일반 오디오와 동기화하여 재생할 수 있는 방법도 시도하고 있습니다.

2024년 대선에 맞춰 텍스트 음성 변환이 획기적인 순간을 맞이할 것으로 보입니다! 그러나 이 기술의 유용성은 특히 접근성을 개선하는 데 있어 부인할 수 없는 사실입니다. 개발팀은 의심하지 않는 사람들이 이 모델을 악용할 수 있는 위험을 고려하여 모델의 소스 코드와 기타 데이터를 공개하지 않기로 결정했다는 점에 유의해야 합니다. 하지만 조만간 진실은 밝혀질 것입니다.