일반 소개
베일링은 음성을 통해 사용자와 자연스럽게 대화할 수 있도록 설계된 오픈소스 음성 대화 어시스턴트입니다. 이 프로젝트는 음성 인식(ASR), 음성 활동 감지(VAD), 대규모 언어 모델(LLM), 음성 합성(TTS) 기술을 결합하여 GPT-4o와 유사한 음성 대화 로봇을 구현합니다. 엔드투엔드 지연 시간이 800ms에 불과한 BaiLing은 다양한 에지 디바이스 및 저자원 환경에 적합합니다. 효율적인 오픈 소스 모델과 모듈식 설계로 GPU 없이도 실행할 수 있어 고품질의 음성 대화 경험을 제공합니다. 메모리 기능, 도구 호출, 작업 관리 등의 기능을 통해 바이오랩스는 사용자 선호도와 과거 대화를 기억하여 개인화된 대화형 경험을 제공합니다.

기능 목록
- 음성 입력: FunASR을 통한 정확한 음성 인식.
- 음성 활동 감지: 실레로-vad를 사용하여 유효하지 않은 오디오를 필터링하여 인식 효율성을 개선합니다.
- 지능형 대화 생성: 다음을 기반으로 deepseek 제공되는 강력한 언어 이해 기능으로 자연스러운 텍스트 응답을 생성합니다.
- 음성 출력: 엣지-tts를 통해 텍스트를 음성으로 변환하여 사용자에게 사실적인 청각적 피드백을 제공합니다.
- 중단 지원: 키워드 및 음성 중단을 식별하는 기능과 함께 중단 정책을 유연하게 구성하여 대화에서 즉각적인 사용자 피드백 및 제어를 보장합니다.
- 메모리 지원: 사용자 선호도와 대화 내역을 기억하여 개인화된 대화형 경험을 제공하는 지속적인 학습 기능입니다.
- 도구 호출 지원: 외부 도구의 유연한 통합으로 사용자가 음성으로 직접 정보를 요청하거나 작업을 수행할 수 있습니다.
- 작업 관리 지원: 진행 상황을 추적하고, 미리 알림을 설정하고, 동적 업데이트를 제공하는 기능으로 사용자 작업을 효율적으로 관리할 수 있습니다.
도움말 사용
설치 및 운영
종속 환경
개발 환경에 다음 도구와 라이브러리가 설치되어 있는지 확인하세요:
- Python 3.8 이상
- pip 패키지 관리자
- FunASR, silero-vad, deepseek, edge-tts에 필요한 종속성
설치 단계
- 프로젝트 웨어하우스 복제:
git clone https://github.com/wwbin2017/bailing.git
cd bailing
- 필요한 종속성을 설치합니다:
pip install -r requirements.txt
- 환경 변수 구성: 열기
config/config.yaml
ASR, LLM 및 기타 관련 구성을 구성합니다. 카탈로그에 SenseVoiceSmall 다운로드하기models/SenseVoiceSmall
딥시크의 API 키를 받아 설정합니다. deepseek의 API 키를 받아 설정하는 것은 물론, openai, qwen, gemini, 01yi 등 다른 모델도 설정할 수 있습니다. - 프로젝트를 실행합니다:
cd server
python server.py # 启动后端服务,也可不执行这一步
python main.py
사용 지침
앱을 실행하면 시스템이 음성 입력을 기다립니다. 자세한 작동 절차는 다음과 같습니다:
- FunASR로 사용자 음성을 텍스트로 변환하세요.
- 유효한 음성만 처리되도록 음성 활동 감지를 위해 silero-vad를 사용하세요.
- 딥시크는 텍스트 입력을 처리하고 스마트한 응답을 생성합니다.
- edge-tts, ChatTTS, macOS say는 생성된 텍스트를 음성으로 변환하여 사용자에게 재생합니다.
기능 작동 흐름
- 음성 입력사용자가 마이크를 통해 음성을 입력하면 시스템이 자동으로 음성 인식을 수행합니다.
- 음성 활동 감지시스템이 자동으로 유효하지 않은 오디오를 필터링하여 인식 효율성을 보장합니다.
- 지능형 대화 생성시스템에서 사용자 입력에 따라 자연스러운 텍스트 응답을 생성합니다.
- 음성 출력시스템이 텍스트 응답을 음성으로 변환하여 사용자에게 재생합니다.
- 중단 지원사용자가 음성으로 현재 대화를 중단할 수 있으며 시스템이 즉시 응답합니다.
- 메모리 기능시스템은 사용자의 선호도와 대화 내역을 기억하여 개인화된 대화형 경험을 제공합니다.
- 도구 호출사용자는 음성으로 정보를 요청하거나 작업을 수행할 수 있으며, 시스템은 외부 도구를 유연하게 통합합니다.
- 작업 관리사용자가 작업 미리 알림을 설정하면 시스템이 작업 진행 상황을 효율적으로 관리하고 동적 업데이트를 제공합니다.
샘플 작업
- 날씨 정보 얻기사용자가 "항저우의 날씨가 어때요?"라고 질문합니다. 시스템이 항저우의 날씨를 반환합니다.
- 시간 제한 작업 만들기사용자가 "매일 아침 8시에 물을 마시라고 알려줘."라고 말합니다. 시스템이 시간 알림을 설정합니다.
위의 자세한 사용 도움말을 통해 사용자는 바이링을 쉽게 시작하고 효율적인 음성 대화 경험을 즐길 수 있습니다.
© 저작권 정책
文章版权归 AI 공유 서클 所有,未经允许请勿转载。
관련 문서
댓글 없음...