Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

42.6K 00

はじめに

Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブの「聞き取り」機能で拡張することを目指している。このプロジェクトは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用しており、Ichigoは、Siriに似た、オープンソースデータ、オープンウェイト、ネイティブデバイスの音声アシスタントになることを目指しています。プロジェクトは、音声データセットのクラウドソーシングに参加するパートナーを募集しています。

機能一覧

リアルタイム音声認識ユーザーの音声入力をリアルタイムで処理し、理解する能力。
多ラウンド対話能力複数回の対話をサポートし、対話の文脈を維持できる。
騒音管理非音声音声入力の処理を訓練によって拒否できるようになったことで、ユーザーエクスペリエンスが向上しました。
オープンソースでスケーラブルプロジェクトのコードとモデルの重みは完全にオープンソースであり、ユーザーは自由にダウンロードして拡張することができる。
ローカル展開ユーザーのプライバシーを保護するため、ローカルデバイスへの展開をサポートします。

ヘルプの使用

設置プロセス

環境準備 ::
- Python 3.8以上がインストールされていることを確認してください。
- 必要な依存ライブラリをインストールする：pip install -r requirements.txt.
ダウンロードモデル ::
- いちごモデルをダウンロードするには、以下のコマンドを使用する：
```
git clone https://github.com/homebrewltd/ichigo.git
cd ichigo
pip install -e .
```
データセットの設定 ::
- HuggingFaceから必要なデータセットをダウンロードし、設定ファイルにデータセットのパスを設定する。
ローンチ・デモ ::
- 以下のコマンドでローカルのGradio Demoを起動する：
```
python demo.py --use-4bit --use-8bit
```

使用プロセス

サービス開始 ::
- 上記のコマンドを実行した後、ローカルに用意されたURLにアクセスし、IchigoのWeb UIインターフェースにアクセスする。
音声入力 ::
- Web UIのインターフェイスで、マイクアイコンをクリックして録音を開始すると、システムはリアルタイムで音声認識結果を処理し、表示します。
重層的対話 ::
- このシステムは複数回の対話をサポートしており、ユーザーは継続的に音声を入力することができ、システムは文脈を理解して応答する。
騒音管理 ::
- システムは、非音声音声入力を認識し、処理を拒否するように訓練され、認識結果の精度を保証する。
カスタムエクステンション ::
- ユーザーは必要に応じてコードやモデルを変更し、新しい機能を追加したり、既存の機能を改善したりすることができる。

詳しい操作手順

ダウンロードとインストール ::
- IchigoのGitHubページにアクセスし、インストール手順に従って必要な依存関係とモデルをダウンロードしてインストールする。
設定とスタートアップ ::
- プロジェクトが提供する設定ファイルに従って、ローカルサービスを開始するためのデータセットパスとモデルパラメータを設定する。
ウェブUIの使用 ::
- 音声入力とWeb UIインターフェースによる対話を通じて、Ichigoのリアルタイム音声認識と多ラウンド対話機能を体験できます。
拡張とカスタマイズ ::
- プロジェクトのドキュメントやカスタム拡張機能のコードコメントに基づいて、システムのアーキテクチャと仕組みを理解する。