Xiaozhi AI 챗봇: AI 채팅 동반자, 간편한 음성 대화 및 지능적인 상호 작용을 구축하세요.

223K 00

일반 소개

샤오지 AI 챗봇은 ESP32 개발 보드를 기반으로 하는 오픈 소스 프로젝트로, 사용자가 자신만의 AI 채팅 동반자를 구축할 수 있도록 설계되었습니다. 이 프로젝트는 Shrimp에서 개발했으며 주로 더 많은 사람들이 AI 하드웨어 개발을 시작하고 빅 언어 모델을 실제 하드웨어 장치에 적용하는 방법을 이해하는 데 도움을 주기 위한 교육 목적으로 사용됩니다. 이 프로젝트는 중국어, 광둥어, 영어, 일본어, 한국어 등 여러 언어의 음성 인식 및 대화 기능을 지원합니다. 사용자는 이 프로젝트를 통해 ESP-IDF로 개발하는 방법을 배우고 AI 챗봇의 다양한 기능을 체험할 수 있습니다.

PC로 이식된 샤오지 AI 챗봇: https://github.com/Huang-junsen/py-xiaozhi

안드로이드에 포팅된 샤오지 AI 챗봇: https://github.com/TOM88812/xiaozhi-android-client

백엔드 서비스 구성 튜토리얼입니다:xiaozhi-esp32-server: 샤오지 AI 챗봇 오픈 소스 백엔드 서비스

기능 목록

Wi-Fi / ML307 Cat.1 4GWi-Fi 연결 및 4G 통신을 지원합니다.
음성으로 깨우기오프라인 음성 깨우기 기능을 지원합니다.
다국어 인식중국어, 광동어, 영어, 일본어, 한국어의 5개 언어 음성 인식을 지원합니다.
음성 인식AI의 이름을 외치는 사람을 식별합니다.
대형 모델 TTS볼케이노 엔진 또는 CosyVoice의 텍스트 음성 변환 기능을 지원합니다.
대형 모델 LLMQwen 2.5 72B 또는 빈백 API의 빅 언어 모델을 지원합니다.
사용자 지정 역할사용자 지정 역할을 만들기 위한 구성 가능한 단서 및 톤.
단기 기억각 대화 라운드가 끝난 후 자체 요약.
디스플레이 화면신호 강도 또는 대화 내용을 표시하는 OLED 또는 LCD 디스플레이를 지원합니다.
하드웨어 지원리트로닉스 리얼리스틱 ESP32-S3 개발 보드, 록신 ESP32-S3-BOX3, M5스택 코어S3 등과 같은 다양한 하드웨어를 지원합니다.

도움말 사용

설치 프로세스

준비 하드웨어ESP32 개발 보드, 마이크 모듈, 스피커 모듈, 디스플레이 등 필요한 하드웨어가 준비되어 있는지 확인하세요.
펌웨어 다운로드최신 펌웨어 버전을 다운로드하려면 프로젝트의 GitHub 페이지를 방문하세요.
펌웨어 굽기플래시 도구를 사용하여 펌웨어를 ESP32 개발 보드에 레코딩합니다. 구체적인 단계는 다음과 같습니다:
- ESP32 개발 보드를 PC에 연결합니다.
- 플래시 도구를 열고 다운로드한 펌웨어 파일을 선택합니다.
- "굽기" 버튼을 클릭하고 굽기가 완료될 때까지 기다립니다.
네트워크 구성레코딩이 완료되면 개발 보드의 BOOT 버튼을 눌러 네트워크 구성 모드로 전환하고 Wi-Fi 또는 4G 네트워크에 연결합니다.
종속성 설치프로젝트 문서에 따라 ESP-IDF 개발 환경과 같은 필요한 소프트웨어 종속성을 설치합니다.
프로젝트 실행위의 단계를 완료한 후 프로젝트를 실행하고 AI 채팅 기능을 체험해 보세요.

사용 지침

음성으로 깨우기마이크에 깨우기 단어를 말하면 AI 챗봇이 깨어납니다.
음성 대화깨어난 후 AI와 직접 음성 대화를 나눌 수 있으며, 여러 언어를 지원합니다.
사용자 지정 역할설정 파일을 통해 커스텀 캐릭터 단서 및 톤을 설정합니다.
디스플레이 기능OLED 또는 LCD 디스플레이에서 대화 내용 및 신호 강도를 확인합니다.
음성 인식AI는 이름을 부르는 사람을 인식하고 개인화된 응답을 제공할 수 있습니다.
단기 기억대화가 끝날 때마다 AI가 자체 요약을 수행하여 대화 경험을 향상시킵니다.

세부 운영 절차

모닝콜 및 대화::
- 디바이스가 네트워크에 연결되어 있는지 확인합니다.
- 마이크에 "샤오지"와 같은 깨우기 단어를 말하면 기기가 대기 모드로 전환됩니다.
- 질문이나 명령을 말하면 AI가 음성 인식을 통해 응답합니다.
사용자 지정 역할 설정::
- 구성 파일을 열고 역할 설정 섹션을 찾습니다.
- 사용자 지정 단서 및 톤 매개변수를 입력하고 파일을 저장합니다.
- 장치를 재부팅하면 새 역할 설정이 적용됩니다.
디스플레이 사용::
- 장치가 활성화되면 디스플레이에 현재 네트워크 신호 강도가 표시됩니다.
- 대화하는 동안 디스플레이에 대화 내용이 표시되어 쉽게 볼 수 있습니다.
음성 인식 기능::
- 구성 파일에서 음성 인식 매개변수를 설정합니다.
- 기기가 활성화되면 자동으로 화자의 음성 지문을 인식하여 개인화된 응답을 제공합니다.
단기 기억 기능::
- 각 대화 라운드가 끝나면 AI가 자동으로 대화를 요약하고 대화 경험을 향상시킵니다.
- 구성 파일에서 요약 매개변수를 조정하여 메모리 효과를 최적화할 수 있습니다.