타부스, 감성 지능형 CVI 플랫폼 출시: 디지털 사용자와의 실시간 비디오 상호 작용을 촉진하는 3가지 핵심 모델 출시

43.8K 00

소개

인간과 컴퓨터의 상호작용 분야는 큰 변화를 겪고 있으며, 첨단 AI 상호작용 기술 개발 전문 기업인 Tavus는 이러한 변화를 주도해 왔습니다. 작년에 Tavus는 당시 세계에서 가장 빠른 대화형 비디오 인터페이스(CVI)를 출시하여 개발자가 실시간 비디오 인터랙션 애플리케이션을 구축할 수 있는 문을 열었습니다.

이제 타버스는 감성 지능을 위한 새로운 CVI 플랫폼을 출시하며 한 걸음 더 나아갔습니다. 이 플랫폼의 핵심에는 세 가지 획기적인 AI 모델인 Phoenix-3, Raven-0, Sparrow-0이 있으며, 이 세 가지 모델을 통해 AI는 이전과는 전혀 다른 방식으로 인식, 이해, 표현할 수 있는 능력을 갖추게 됩니다.

CVI 플랫폼: 기술 분석

새로운 CVI 플랫폼은 단순한 도구가 아니라 인간과 컴퓨터의 상호 작용을 더욱 자연스럽고 효율적으로 만들기 위해 설계된 완전한 에코시스템입니다. 시각적 인식, 자연어 처리 및 고급 렌더링 기술을 결합하여 다음과 같은 주요 기능을 구현합니다:

실시간: CVI 플랫폼은 지연 시간이 짧은 시나리오에 최적화되어 있으며 원활한 실시간 영상 대화를 지원할 수 있습니다.
감성 지능: CVI 플랫폼은 딥러닝 모델을 통해 사람의 감정을 이해하고 그에 따라 대응할 수 있습니다.
전체 얼굴 렌더링: CVI 플랫폼은 단순한 입술 동기화뿐만 아니라 얼굴 전체에 미묘한 표정을 생성하여 더욱 사실적인 AI 이미지를 구현할 수 있습니다.
사용 편의성: Tavus 개발자가 CVI 플랫폼을 애플리케이션에 쉽게 통합할 수 있도록 깔끔한 API를 제공합니다.

핵심 모델: 피닉스-3, 레이븐-0, 스패로우-0

CVI 플랫폼의 감성 지능과 실시간 상호작용 기능은 타버스가 개발한 세 가지 핵심 모델을 통해 구현됩니다:

Phoenix-3 베타: 가우시안 디퓨전 기반 풀 페이스 렌더링

Phoenix-3는 가우시안 확산 모델을 기반으로 하는 렌더링 엔진입니다. 기존의 얼굴 애니메이션 기술은 일반적으로 입술의 움직임에만 초점을 맞추지만, Phoenix-3는 눈썹, 뺨, 눈, 입의 움직임을 포함하여 얼굴 전체의 미묘한 표정을 생성할 수 있습니다.

Phoenix-3의 기술적 장점은 다음과 같습니다:

가우시안 확산 모델: 가우시안 확산 모델은 기존의 GAN(생성적 적대 신경망) 모델보다 더 안정적이고 고품질의 이미지를 생성할 수 있습니다.
얼굴 전체를 제어합니다: Phoenix-3는 입술만 제어하는 것이 아니라 얼굴 전체의 근육 움직임을 세밀하게 제어할 수 있어 더욱 풍부한 표정을 표현할 수 있습니다.
실시간 렌더링: Phoenix-3는 실시간 렌더링에 최적화되어 있으며 짧은 지연 시간으로 고품질의 얼굴 애니메이션을 생성합니다.

Raven-0: 시각적 인식 및 감정 이해

Raven-0은 CVI 플랫폼에 '보고' '이해하는' 기능을 제공하는 시각 인식 모델입니다. Raven-0은 사물을 인식할 뿐만 아니라 사람의 움직임, 제스처, 미세한 표정을 포착하여 사용자의 감정적 상태를 추론합니다.

Raven-0의 기술적 특징은 다음과 같습니다:

지속적인 시각적 처리: Raven-0은 연속 비디오 스트림을 처리하고 사용자의 움직임과 표정 변화를 실시간으로 추적할 수 있습니다.
멀티모달 융합: Raven-0은 시각 정보와 다른 양식의 정보(예: 음성)를 결합하여 사용자의 의도를 보다 정확하게 파악할 수 있습니다.
감정 인식: Raven-0은 광범위한 기본 감정을 인식하고 보다 미묘한 감정 변화를 포착할 수 있습니다.

Sparrow-0: 트랜스포머 기반 회전 대화 관리

Sparrow-0은 트랜스포머 모델의 대화 관리 엔진입니다. 이 엔진은 대화의 속도를 제어하고 AI가 언제 말하고 언제 들어야 하는지 결정하는 역할을 합니다.

Sparrow-0의 기술은 다음과 같은 특징이 있습니다:

트랜스포머 모델: 트랜스포머 모델은 자연어 처리 분야에서 큰 성공을 거두었으며, Sparrow-0은 이를 대화 관리에 적용하여 대화의 맥락과 의미를 더 잘 이해할 수 있도록 지원합니다.
회전 메커니즘: Sparrow-0은 대화 라운드를 예측하여 사용자를 방해하거나 긴 침묵을 피할 수 있습니다.
지연 시간이 짧은 응답: Sparrow-0은 600밀리초 이내에 응답하도록 최적화되어 있어 원활한 대화를 보장합니다.

기술적 관점에서 보면, Sparrow-0은 원래 자연어 처리 작업을 위해 설계된 딥 러닝 아키텍처인 트랜스포머 모델을 사용합니다. 이 모델은 순차적 데이터 처리에 탁월하여 대화의 흐름과 맥락을 이해하는 데 적합합니다. 억양, 속도, 의미 등을 포함한 대화 패턴을 분석함으로써 Sparrow-0은 AI가 응답할 최적의 시점을 지능적으로 결정할 수 있습니다.

모델 시너지: 감성 지능 구축

피닉스-3, 레이븐-0, 스패로우-0의 세 모델은 독립적으로 작동하는 대신 긴밀하게 협력하여 감성 지능 AI 상호 작용 시스템을 구축합니다. 레이븐-0은 보고 이해하는 것을, 스패로우-0은 듣고 말하는 것을, 피닉스-3은 표현하는 것을 담당합니다. Raven-0은 '보기'와 '이해'를, Sparrow-0은 '듣기'와 '말하기'를, Phoenix-3은 '표현하기'를 담당합니다.

응답 시간 계산 공식:

총 지연 시간 = T_지각 + T_거래 + T_{그림(중국화)에 잉크 또는 색채를 추가합니다.}

T_지각Raven-0 모델이 시각적 입력을 처리하고 관련 특징을 추출하는 데 필요한 시간입니다.
T_거래: Sparrow-0 모델이 대화 컨텍스트를 분석하고 응답을 생성하는 데 걸리는 시간입니다.
T_{그림(중국화)에 잉크 또는 색채를 추가합니다.}Phoenix-3 모델의 페이셜 애니메이션을 생성하고 최종 결과물을 렌더링하는 데 걸리는 시간입니다.