はじめに
TENエージェントは、オープンソースのリアルタイムマルチモーダルインテリジェンスフレームワークであり、OpenAIリアルタイムAPIとRTCを統合し、天気クエリ、ウェブ検索、視覚処理、RAG(Retrieval Augmented Generation)などの複数の機能をサポートします。このフレームワークは、複雑なAIアプリケーションシナリオのために、高性能、低遅延のオーディオおよびビデオインタラクションソリューションを提供することを目的としています。
これまでに見た中で、2番目に成熟したリアルタイム双方向マルチモーダルインテリジェンスは、非常にスムーズな音声コミュニケーションプロセスを持っている。
機能一覧
- リアルタイム・マルチモーダルインタラクションオーディオ、ビデオ、テキストのリアルタイム処理とインタラクションをサポートします。
- OpenAIリアルタイムAPIの統合低遅延の音声対音声対話機能を提供します。
- RTC AIノイズ抑制AIアルゴリズムによるノイズ除去で音質を向上。
- 天気に関するお問い合わせリアルタイムの気象情報を提供するために、気象クエリー機能を統合。
- インターネット検索ウェブ検索による情報へのアクセスをサポート。
- 視覚処理画像認識・処理機能をサポート。
- RAGの機能検索強化型生成技術により、ローカル文書を使った回答を提供。
- 多言語サポートC++、Go、Pythonなど、複数のプログラミング言語による拡張開発をサポート。
- クロスプラットフォーム対応Windows、Mac、Linux、モバイルデバイスに対応。
ヘルプの使用
設置プロセス
- 環境を整える::
- DockerとDocker Composeがインストールされていることを確認する。
- Agora アプリ ID とアプリ証明書(Agora コンソールで証明書が有効になっている場合)を取得します。
- OpenAIのAPIキーと、Deepgram ASRとFishAudio TTSのAPIキーを取得します。
- 環境変数の設定::
- プロジェクトのルート・ディレクトリで
cp .env.example .env
コマンドで作成する。環境
ドキュメンテーション - 見せる
環境
ファイルに必要なAPIキーとコンフィギュレーションを記述する。
- プロジェクトのルート・ディレクトリで
- 打ち上げコンテナ::
- プロジェクトのルート・ディレクトリで実行する
docker compose up
コマンドでコンテナを起動する。 - または
docker compose up -d
コマンドを使用して、コンテナをデタッチ・モードで起動する。
- プロジェクトのルート・ディレクトリで実行する
- インテリジェンスの構築::
- 新しいターミナル・ウィンドウを開き、コンテナに入り、インテリジェンスを構築する。
- ビルドが完了したら、ポート8080でサーバーを実行する:
ランサーバーを作る
.
- アクセスインターフェイス::
- ブラウザで開く
ローカルホスト:3000
TENエージェントは今後初めて使用される。 - 別のタブを開いて
ローカルホスト:3001
Graph Designerを使用して、エクステンションを作成、接続、編集します。
- ブラウザで開く
機能操作ガイド
- リアルタイム・マルチモーダルインタラクション::
- 統合されたOpenAI Realtime APIによる低レイテンシーの音声対話。
- クリアで安定した音質を確保するために、RTCのAIノイズ抑制機能をご利用ください。
- 天気に関するお問い合わせ::
- インターフェイスに検索したい都市名を入力すると、リアルタイムの気象情報が表示される。
- インターネット検索::
- 検索ボックスにキーワードを入力すると、システムがウェブを検索して関連情報を取得する。
- 視覚処理::
- 画像ファイルをアップロードすると、システムが自動的に画像認識と処理を行います。
- RAGの機能::
- 検索強化型生成技術では、質問が入力されると、システムがローカル文書を使って回答を提供する。
- 多言語サポート::
- C++、Go、Python、その他のプログラミング言語による拡張開発をサポート。
- クロスプラットフォーム対応::
- Windows、Mac、Linux、モバイルデバイスと互換性があり、ユーザーは異なるプラットフォーム上でTENエージェントをシームレスに使用することができます。