AIパーソナル・ラーニング
と実践的なガイダンス

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

はじめに

Bailingは、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトでは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデル(LLM)、音声合成(TTS)技術を組み合わせて、GPT-4oのような音声対話ロボットを実装しています。エンド・ツー・エンドのレイテンシが800msと低いBaiLingは、広範なエッジデバイスや低リソース環境に適しています。効率的なオープンソースモデルとモジュール設計により、GPUなしで動作し、高品質の音声対話体験を提供します。メモリー機能、ツール呼び出し、タスク管理などの機能により、Biolabsはユーザーの好みや過去の会話を記憶し、パーソナライズされた対話体験を提供します。

BaiLing:自然な会話コミュニケーションを容易に実現する低遅延オープンソース音声対話アシスタント-1


 

機能一覧

  • 音声入力:FunASRによる正確な音声認識。
  • 音声アクティビティ検出:認識効率を向上させるために、サイレロバッドを使用して無効な音声をフィルタリングする。
  • インテリジェントな対話の生成 ディープシーク 提供される強力な言語理解によって、自然なテキスト応答が生成される。
  • 音声出力: エッジトッツを介してテキストを音声に変換し、ユーザーにリアルな聴覚フィードバックを提供します。
  • 中断のサポート:キーワードや音声の中断を識別する機能を備えた中断ポリシーの柔軟な設定により、対話におけるユーザーのフィードバックとコントロールを即座に確保します。
  • 記憶サポート:ユーザーの好みや会話の履歴を記憶し、パーソナライズされたインタラクティブな体験を提供する継続的な学習機能。
  • ツール呼び出しのサポート:外部ツールの柔軟な統合により、ユーザーは音声で直接情報を要求したり、アクションを実行したりできます。
  • タスク管理のサポート:進捗状況の追跡、リマインダーの設定、動的なアップデートの提供などの機能により、ユーザーのタスクを効率的に管理します。

 

ヘルプの使用

インストールと操作

依存する環境

開発環境に以下のツールとライブラリがインストールされていることを確認してください:

  • Python 3.8以上
  • pip パッケージマネージャ
  • FunASR、silero-vad、deepseek、edge-tsに必要な依存関係

インストール手順

  1. クローン・プロジェクト・ウェアハウス
   git clone https://github.com/wwbin2017/bailing.git
cd bailing
  1. 必要な依存関係をインストールします:
   pip install -r requirements.txt
  1. 環境変数の設定: 開く config/config.yaml ASR、LLM、その他の関連設定を行います。 SenseVoiceSmallをカタログにダウンロードする モデル/SenseVoiceSmalldeepseekのAPIキーは、モデルを設定するためのキーです。 もちろん、openai、qwen、gemini、01yiなど、他のモデルの設定も可能です。
  2. プロジェクトを実行する:
   cd server
python server.py # バックエンドサービスを開始します。
python main.py

使用方法

アプリ起動後、音声入力を待ちます。詳しい操作手順は以下の通り:

  1. FunASRでユーザーの音声をテキストに変換。
  2. 音声アクティビティ検出にはサイレロバッドを使用し、有効な音声のみが処理されるようにする。
  3. deepseekはテキスト入力を処理し、スマートな応答を生成する。
  4. edge-ts、ChatTTS、macOSは、生成されたテキストを音声に変換し、ユーザーに再生すると言う。

機能 操作の流れ

  • 音声入力マイクから音声を入力すると、自動的に音声認識を行います。
  • 音声アクティビティ検出認識効率を高めるため、無効な音声を自動的にフィルタリングします。
  • インテリジェントな対話生成このシステムは、ユーザーの入力に基づいて自然なテキスト応答を生成します。
  • 音声出力このシステムは、テキストの応答を音声に変換し、ユーザーに再生します。
  • 中断への対応ユーザーは音声で現在の対話を中断することができ、システムは即座に応答します。
  • メモリー機能システムはユーザーの好みや会話の履歴を記憶し、パーソナライズされたインタラクティブな体験を提供します。
  • ツールコールまた、外部ツールとの連携にも柔軟に対応します。
  • タスク管理ユーザーはタスクのリマインダーを設定することができ、システムは効率的にタスクの進捗状況を管理し、動的なアップデートを提供します。

サンプル操作

  • 気象情報を入手する杭州の天気はどうですか? システムは杭州の天気を返す。
  • 時間指定タスクの作成毎朝8時に水を飲むようにリマインドしてください。 システムは時間指定のリマインダーを設定します。

上記の詳細な使用方法ヘルプにより、ユーザーは簡単にBaiLingを使い始めることができ、効率的な音声対話体験を楽しむことができます。

無断転載を禁じます:チーフAIシェアリングサークル " Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語