Moshi: 음성 대화 기본 모델을 위한 여러 언어와 악센트를 지원하는 실시간 음성 대화 프레임워크

67.6K 00

일반 소개

모시 챗은 프랑스의 비영리 AI 연구소인 큐타이의 엔드투엔드 실시간 AI 음성 비서입니다. 실시간으로 들을 뿐만 아니라 자연스러운 대화에 참여하고 보고, 듣고, 말하는 기능을 포함한 멀티모달 상호작용을 지원하며, 사용자의 억양을 이해하고 언제든지 듣고 말하는 것을 동시에 수행할 수 있습니다. 고유한 기능과 오픈 소스 가용성을 갖춘 Moshi Chat은 AI 개발의 선구자입니다.

Mimi는 스트리밍 신경 오디오 코덱으로 24kHz 오디오를 처리하고 1.1kbps의 대역폭으로 압축하여 80ms의 지연 시간으로 처리할 수 있으며, 모시는 동시에 두 개의 오디오 스트림(하나는 모시와 사용자에 해당하는 것)을 처리하여 동시에 듣고 말할 수 있게 해줍니다. 이 모델은 감정을 이해하고 표현하도록 설계되었으며 여러 언어와 악센트를 지원합니다.

기능 목록

실시간 음성 상호 작용: 듣기와 말하기를 모두 지원하여 원활한 대화 환경을 제공합니다.
멀티모달 상호 작용: 음성, 텍스트 및 시각 정보의 통합 처리를 지원합니다.
정서적 이해: 다양한 감정을 인식하고 표현하는 능력은 상호작용을 더욱 자연스럽게 만들어 줍니다.
오픈 소스 프로젝트: 커뮤니티 협업과 혁신을 지원하기 위한 오픈 코드와 모델을 제공합니다.
효율적인 성능: 여러 백엔드를 지원하여 24GB VRAM에서 두 가지 배치 크기를 처리합니다.
짧은 지연 시간: 200밀리초의 엔드투엔드 지연 시간을 달성하여 실시간 응답을 보장합니다.

도움말 사용

설치 및 사용

인터뷰 모시 채팅 공식 웹사이트.
이메일 주소를 입력하고 '대기열에 참여하기'를 클릭합니다.
모시 채팅으로 대화를 시작하세요.

기능 작동 가이드

실시간 음성 상호작용

모시 채팅을 열면 마이크를 통해 직접 대화할 수 있습니다.
모시 채팅은 사용자의 음성 입력을 실시간으로 처리하고 그에 따라 응답합니다.

멀티모달 상호 작용

음성 외에도 텍스트 입력을 통해 모시 채팅과 상호작용할 수 있습니다.
모시 채팅은 음성 및 문자 메시지를 모두 처리하여 통합된 대화형 경험을 제공할 수 있습니다.

정서적 이해

모시챗은 감정을 인식하고 표현하는 기능이 있어 다양한 어조로 말을 걸어보고 반응을 관찰할 수 있습니다.
이 기능을 사용하면 모시 채팅과의 상호작용이 더욱 생생하고 자연스러워집니다.

오픈 소스 프로젝트

큐타이는 모시 채팅의 오픈 소스 코드를 제공하며, GitHub에서 찾을 수 있습니다.
코드를 다운로드하고 로컬에서 수정 및 최적화하여 커뮤니티의 공동 개발에 참여할 수 있습니다.

지연 시간이 짧은 고성능

모시 채팅은 24GB VRAM에서 두 가지 배치 크기를 효율적으로 처리할 수 있으며 CUDA, Metal 및 CPU와 같은 여러 백엔드를 지원합니다.
최적화된 추론 코드와 향상된 KV 캐싱으로 모델이 효율적으로 실행되며, 200밀리초의 엔드투엔드 지연 시간을 제공하여 실시간 응답을 보장합니다.