はじめに
Xiaozhi AI Chatbotは、ESP32開発ボードをベースにしたオープンソースプロジェクトで、ユーザーが独自のAIチャットコンパニオンを構築できるように設計されています。このプロジェクトはシュリンプ社によって開発され、より多くの人々がAIハードウェア開発を始め、大きな言語モデルを実際のハードウェア・デバイスに適用する方法を理解するための教育目的で主に使用されている。このプロジェクトは、北京語、広東語、英語、日本語、韓国語を含む複数の言語での音声認識と対話機能をサポートしている。ユーザーはこのプロジェクトを通じて、ESP-IDFを使った開発方法を学び、AIチャットボットの様々な機能を体験することができる。
機能一覧
- Wi-Fi / ML307 Cat.1 4GWi-Fi接続と4G通信に対応。
- 声で目覚めるオフライン音声ウェイクアップ機能をサポート。
- 多言語認識北京語、広東語、英語、日本語、韓国語の5ヶ国語の音声認識に対応。
- 音声認識AIの名前を叫んでいる人物を特定する。
- 大型モデルTTSVolcano EngineまたはCosyVoiceの音声合成機能をサポート。
- 大型モデル LLMQwen 2.5 72B または beanbag API の大きな言語モデルをサポートします。
- カスタムの役割設定可能なキューとトーンにより、カスタムロールを作成できます。
- 短期記憶各ラウンド終了後に自己総括を行う。
- 表示画面信号強度や対話内容を表示するOLEDまたはLCDディスプレイをサポート。
- ハードウェア・サポートLitronix-Realistic ESP32-S3開発ボード、Loxin ESP32-S3-BOX3、M5Stack CoreS3など、幅広いハードウェアをサポートしています。
ヘルプの使用
設置プロセス
- 準備用ハードウェアESP32開発ボード、マイクモジュール、スピーカーモジュール、ディスプレイなど、必要なハードウェアが揃っていることを確認してください。
- ファームウェアのダウンロードファームウェアの最新バージョンをダウンロードするには、プロジェクトのGitHubページをご覧ください。
- ファームウェアの書き込みフラッシュツールを使用して、ファームウェアをESP32開発ボードに書き込みます。具体的な手順は以下の通り:
- ESP32開発ボードをコンピュータに接続する。
- フラッシュツールを開き、ダウンロードしたファームウェアファイルを選択します。
- 書き込み」ボタンをクリックし、書き込みが完了するまで待つ。
- ネットワークの設定書き込みが完了したら、開発ボードのBOOTボタンを押してネットワーク設定モードに入り、Wi-Fiまたは4Gネットワークに接続します。
- 依存関係のインストールESP-IDF開発環境など、必要なソフトウェアの依存関係をプロジェクトのドキュメントに従ってインストールします。
- ランニング・プロジェクト上記のステップが完了したら、プロジェクトを実行し、AIチャット機能を体験してください。
使用方法
- 声で目覚めるマイクに向かってウェイクワードを話すと、AIチャットボットが目を覚まします。
- ボイス・ダイアログ起床後、多言語に対応したAIと直接音声対話をすることができます。
- カスタムの役割設定ファイルを使用して、カスタムキャラクターのキューとトーンを設定します。
- 表示機能OLEDまたはLCDディスプレイでダイアログの内容と信号強度を表示します。
- 音声認識AIは誰が自分の名前を呼んでいるかを認識し、パーソナライズされた応答を提供することができる。
- 短期記憶対話の各ラウンドの後、AIは自己要約を行い、対話体験を向上させる。
詳しい操作手順
- モーニングコールと対話::
- デバイスがネットワークに接続されていることを確認してください。
- マイクに向かって「シャオジー」などと目覚ましの言葉を話すと、デバイスはスタンバイ・モードに入る。
- 質問やコマンドを話すと、AIが音声認識をして応答する。
- カスタム役割設定::
- 設定ファイルを開き、Role Settingsセクションを見つける。
- カスタムキューとトーンパラメータを入力し、ファイルを保存します。
- デバイスを再起動すると、新しい役割設定が有効になります。
- ディスプレイ使用::
- デバイスが起動すると、ディスプレイに現在のネットワーク信号強度が表示されます。
- ダイアログ中は、ダイアログの内容が見やすく表示されます。
- 音声認識機能::
- 設定ファイルで、音声認識パラメータを設定する。
- デバイスが起動すると、話し手の声紋を自動的に認識し、パーソナライズされた応答を提供する。
- 短期記憶機能::
- 各ラウンドの対話の後、AIが自動的に要約し、対話体験を向上させる。
- メモリー効果を最適化するために、コンフィギュレーション・ファイルでサマリー・パラメーターを調整することができる。