일반 소개
SpeechGPT 2.0-preview는 수백만 시간의 음성 데이터로 학습된 OpenMOSS의 첫 번째 의인화 실시간 상호작용 시스템입니다. 수백만 시간의 음성 데이터를 기반으로 한 최초의 의인화 실시간 인터랙션 시스템으로, 의인화된 음성 표현과 100ms의 짧은 지연 응답을 갖추고 자연스럽고 부드러운 실시간 중단을 지원하는 SpeechGPT 2.0-preview는 음성과 텍스트의 두 가지 모드를 정렬하고 다중 감정, 다중 스타일 및 다중 톤의 정밀한 제어 및 지능형 전환 기능을 보여줄 수 있습니다. 다양한 캐릭터의 톤과 감정 상태를 시뮬레이션할 수 있을 뿐만 아니라 시 낭송, 스토리텔링, 사투리 말하기 등 다양한 음성 재능을 가지고 있습니다. 또한 SpeechGPT 2.0-프리뷰는 도구 호출, 네트워크 검색 및 플러그인 지식 기반을 지원하여 풍부한 음성 표현 및 텍스트 기능을 제공합니다.


데모 주소: https://sp2.open-moss.com/
기능 목록
- 의인화된 구어체 표현
- 수백 밀리초의 짧은 지연 시간 응답
- 멀티 이모션, 멀티 스타일, 멀티 톤 컨트롤
- 역할 수행 능력
- 시 낭송, 동화 구연, 방언 등 음성 재능을 발휘할 수 있습니다.
- 도구 호출, 네트워크 검색 및 플러그인 지식창고 지원
- 효율적인 음성 데이터 크롤링 시스템
- 다양하고 효율적인 음성 데이터 정리 파이프라인
- 풀 스펙트럼 다중 세분화 음성 데이터 주석 시스템
- 초저 비트레이트 스트리밍 음성 코덱의 시맨틱-음향 공동 모델링
도움말 사용
설치 프로세스
- 복제 창고:
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
- 모델 가중치를 다운로드합니다(git-lfs가 설치되어 있어야 합니다):
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- 환경을 준비합니다:
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
- 웹 데모를 시작합니다:
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
기능 작동 흐름
- 의인화된 구어체 표현SpeechGPT 2.0-프리뷰는 사람의 구두 표현을 시뮬레이션하여 자연스럽고 부드러운 대화 경험을 제공할 수 있습니다.
- 짧은 지연 시간 응답시스템은 사용자 입력에 100밀리초 단위로 반응하여 실시간 상호작용이 가능합니다.
- 멀티 이모션, 멀티 스타일, 멀티 톤 컨트롤사용자는 명령을 통해 시스템의 감정, 스타일 및 음색을 제어하여 다양한 대화 시나리오에 맞게 조정할 수 있습니다.
- 롤플레잉(게임)이 시스템은 다양한 캐릭터의 목소리 톤과 감정 상태를 시뮬레이션할 수 있으며 다양한 애플리케이션 시나리오에 적합합니다.
- 음운론적 재능: 시 낭송, 스토리텔링, 사투리 표현 등 다양한 음성 재능으로 대화를 더욱 풍성하게 해주는 SpeechGPT 2.0-프리뷰입니다.
- 도구 호출 및 네트워크 검색이 시스템은 외부 도구 호출 및 네트워크 검색 수행을 지원하여 대화의 기능을 확장하고 정보에 대한 액세스를 확장합니다.
- 플러그인 기술 자료외부 지식창고에 액세스하면 시스템이 보다 상세하고 전문적인 답변을 제공할 수 있습니다.
사용 예
- 감정 조절사용자가 "행복한 어조로 농담해줘"라는 명령을 입력하면 시스템이 행복한 어조로 농담을 들려줍니다.
- 롤플레잉(게임)"이차 함수를 설명하는 선생님의 목소리 톤 시뮬레이션"이라는 명령을 입력하면 시스템이 선생님의 목소리 톤으로 설명합니다.
- 음운론적 재능"방언으로 이야기하기" 명령을 입력하면 시스템이 지정된 방언으로 이야기를 들려줍니다.
위의 단계와 예시를 통해 사용자는 SpeechGPT 2.0-프리뷰의 강력한 기능과 다양한 적용 시나리오를 충분히 경험할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...