AIパーソナル・ラーニング
と実践的なガイダンス

Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

はじめに

Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブの「聞き取り」機能で拡張することを目指している。このプロジェクトは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用しており、Ichigoは、Siriに似た、オープンソースデータ、オープンウェイト、ネイティブデバイスの音声アシスタントになることを目指しています。プロジェクトは、音声データセットのクラウドソーシングに参加するパートナーを募集しています。

Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、Siri-1のオープンソース版


 

機能一覧

  • リアルタイム音声認識ユーザーの音声入力をリアルタイムで処理し、理解する能力。
  • 多ラウンド対話能力複数回の対話をサポートし、対話の文脈を維持できる。
  • 騒音管理非音声音声入力の処理を訓練によって拒否できるようになったことで、ユーザーエクスペリエンスが向上しました。
  • オープンソースでスケーラブルプロジェクトのコードとモデルの重みは完全にオープンソースであり、ユーザーは自由にダウンロードして拡張することができる。
  • ローカル展開ユーザーのプライバシーを保護するため、ローカルデバイスへの展開をサポートします。

 

ヘルプの使用

設置プロセス

  1. 環境準備 ::
    • Python 3.8以上がインストールされていることを確認してください。
    • 必要な依存ライブラリをインストールする:pip install -r requirements.txt.
  2. ダウンロードモデル ::
    • いちごモデルをダウンロードするには、以下のコマンドを使用する:
      ギット クローン https://github.com/homebrewltd/ichigo.git
      cd ichigo
      pip install -e .
      
  3. データセットの設定 ::
    • HuggingFaceから必要なデータセットをダウンロードし、設定ファイルにデータセットのパスを設定する。
  4. ローンチ・デモ ::
    • 以下のコマンドでローカルのGradio Demoを起動する:
      python demo.py --use-4bit --use-8bit
      

使用プロセス

  1. サービス開始 ::
    • 上記のコマンドを実行した後、ローカルに用意されたURLにアクセスし、IchigoのWeb UIインターフェースにアクセスする。
  2. 音声入力 ::
    • Web UIのインターフェイスで、マイクアイコンをクリックして録音を開始すると、システムはリアルタイムで音声認識結果を処理し、表示します。
  3. 重層的対話 ::
    • このシステムは複数回の対話をサポートしており、ユーザーは継続的に音声を入力することができ、システムは文脈を理解して応答する。
  4. 騒音管理 ::
    • システムは、非音声音声入力を認識し、処理を拒否するように訓練され、認識結果の精度を保証する。
  5. カスタムエクステンション ::
    • ユーザーは必要に応じてコードやモデルを変更し、新しい機能を追加したり、既存の機能を改善したりすることができる。

詳しい操作手順

  1. ダウンロードとインストール ::
    • IchigoのGitHubページにアクセスし、インストール手順に従って必要な依存関係とモデルをダウンロードしてインストールする。
  2. 設定とスタートアップ ::
    • プロジェクトが提供する設定ファイルに従って、ローカルサービスを開始するためのデータセットパスとモデルパラメータを設定する。
  3. ウェブUIの使用 ::
    • 音声入力とWeb UIインターフェースによる対話を通じて、Ichigoのリアルタイム音声認識と多ラウンド対話機能を体験できます。
  4. 拡張とカスタマイズ ::
    • プロジェクトのドキュメントやカスタム拡張機能のコードコメントに基づいて、システムのアーキテクチャと仕組みを理解する。
AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語