Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

2.6K 00

はじめに

Weebo は、オープンソースのリアルタイム音声チャットボットで、次のような特徴を備えています。ウィスパー音声認識には Small、自然言語生成には Llama 3.2、音声合成には Kokoro-82M を使用する。Amanvir Parharによって開発されたこのプロジェクトは、ネイティブデバイス上で動作する効率的な音声対話ソリューションを提供することを目的としています。Weeboは幅広い音声をサポートし、音声対話を必要とする幅広いアプリケーションシナリオに対してリアルタイム応答をスムーズに生成します。

機能一覧

リアルタイム音声認識：ウィスパー・スモールモデルを用いた効率的な音声テキスト処理。
自然言語生成: Llama 3.2モデルを通じて自然言語応答を生成します。
音声合成：Kokoro-82Mモデルを使用してテキストを音声に変換。
マルチサウンドサポート：ユーザーエクスペリエンスを向上させる複数のサウンドオプションを提供します。
ローカルで実行：クラウド・サービスに依存する必要はなく、すべての処理はローカル・デバイスで行われる。
オープンソース・コード：コードが公開されているため、ユーザーは自由に機能を変更・拡張することができる。

ヘルプの使用

設置プロセス

必要なモデルをダウンロードしてください：
- ココロ-82Mモデルダウンロードファイル kokoro-v0_19.onnx を作成し、プロジェクト・フォルダーに入れる。
- 利用するオーラマこのツールは、ラマ3.2モデルを引っ張ってくる。
Weebo プロジェクトコードをクローンする：

   git clone https://github.com/amanvirparhar/weebo.git
cd weebo

依存関係をインストールします：

   pip install -r requirements.txt

チャットボットを実行する：

   python main.py

使用方法

プログラムを開始すると、Weeboは音声入力を聞き始めます。
ユーザーは自然に話すことができ、Weeboは短いポーズの後に音声応答を生成する。
プレス Ctrl+C プログラムは停止できる。

主な機能

音声認識Weeboは音声認識にWhisper Smallモデルを使用しており、ユーザーの音声を正確にテキストに変換することができます。
自然言語生成Llama3.2モデルを使って、Weeboはユーザーの音声入力を理解し、自然言語による応答を生成します。
音声合成ココロ-82Mモデルを使って、ウィーボは生成されたテキスト応答を音声に変換し、スピーカーから再生します。
マルチボイス対応プロファイルでは、用途に応じて異なるサウンドモデルを選択することができます。

詳細な手順

ウィーボを立ち上げる走る python main.pyプログラムはユーザーの音声入力を聞き始めます。
音声入力ユーザーはマイクに向かって直接話すことができ、Weeboは自動的に音声を認識して処理します。
レスポンスの生成音声を認識した後、WeeboはLlama 3.2モデルを使って自然言語応答を生成し、Kokoro-82Mモデルを使って音声に変換します。
再生レスポンス生成された音声応答はスピーカーから流れ、ユーザーはWeeboの回答を聞くことができます。
停止手順プレス Ctrl+C ウィーボはいつでも止めることができる。

以上の手順により、ユーザーは簡単に Weebo を使ってリアルタイムの音声対話を開始し、自然でスムーズな音声対話を体験することができます。