はじめに
OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。このプロジェクトは、開発者が短期間で複雑なマルチインテリジェントボディスピーチシステムを構築することを可能にする高レベルのインテリジェントボディモデル(OpenAI Swarmから借用)を提供します。このプロジェクトでは、インテリジェンス間の逐次的なハンドオフ、よりスマートなモデルへのバックグラウンドブースト、ユーザ情報を一文字ずつ確認するようなタスクのためのステートマシンにモデルを従わせる方法を例として示しています。これは、マルチ・インテリジェント・ボディのリアルタイム・スピーチ・アプリケーションを迅速にプロトタイプ化したい開発者にとって、貴重なリソースである。
OpenAIは、リアルタイムAPIを使用してインテリジェントパターンを構築し、オーケストレーションするためのリファレンス実装を提供します。このリポジトリを使用すると、20分以内にマルチインテリジェントボディプロセスを使用して音声アプリケーションのプロトタイプを作成することができます!音声対話は低レイテンシーで同期的な性質を持っているため、リアルタイムAPIを使ったビルドは複雑になりがちです。このリポジトリには、この複雑さを管理するために私たちが学んだベストプラクティスが含まれています。
機能一覧
- インテリジェント・ボディ・シーケンス・ハンドオーバーあらかじめ定義されたインテリジェンス・グラフに基づき、インテリジェンスの逐次ハンドオーバーを可能にします。
- 背景の強化このタスクは、より高度なモデル(例えばo1-mini)にアップグレードすることが可能である。
- 状態マシン処理ユーザー名や電話番号などの情報を正確に収集し、検証する。
- ラピッドプロトタイピングマルチインテリジェンス・リアルタイム・スピーチ・アプリケーションを素早く構築し、テストするためのツールを提供します。
- 構成の柔軟性インテリジェント・ボディの動作やインタラクションの流れは、ユーザー自身が設定することができます。
ヘルプの使用
インストールと設定
- クローン倉庫::
git clone https://github.com/openai/openai-realtime-agents.git cd openai-realtime-agents
- 環境設定::
- Node.jsとnpmがインストールされていることを確認する。
- 利用するnpmインストール必要な依存パッケージをすべてインストールする。
- ローカルサーバーの起動::
npmスタート
これでローカルサーバーが起動し、ブラウザからhttp://localhost:3000アプリを見る
使用ガイドライン
インテリジェンスの閲覧と選択::
- ブラウザを開き、次のページに移動する。http://localhost:3000**。**
- シナリオ」ドロップダウンメニューと「エージェント」ドロップダウンメニューのあるインターフェイスが表示されます。
インタラクティブ体験::
- シーンを選ぶ例えば、"simpleExample "や "customerServiceRetail "などです。".
- スマートなボディを選ぶAgent "メニューで、"frontDeskAuthentication "や "customerServiceRetail "など、開始したいインテリジェンスを選択します。customerServiceRetail」を選択します。
- 対話の開始インターフェイスからテキストを入力するか、音声入力(サポートされている場合)で直接入力することで、知能体との対話を開始します。インテリジェンスはあなたの入力に反応し、より複雑なタスクについては別のインテリジェンスにリダイレクトすることができます。
機能の詳細操作
- シーケンシャル・ハンドオーバーあるインテリジェントから別のインテリジェンスへ、例えばフロント認証からアフターサービスへの引き継ぎが必要な場合、システムはこの引き継ぎを自動的に処理します。各インテリジェンスのコンフィギュレーションがダウンストリームエージェント.
- 背景の強化複雑なタスクやリスクの高いタスクを処理する場合、インテリジェンスをより強力なモデルに自動的に昇格させて処理することができる。例えば、ユーザーの身元確認や返品処理などの詳細な作業が必要な場合、システムはo1-miniモデルを呼び出す。
- 状態マシン処理個人情報の入力など、一文字一文字の確認が必要な作業では、スマートボディがステートマシンを通して段階的にユーザーを誘導し、各文字や情報が正しいことを確認します。ユーザーは、入力プロセス中に「あなたの名字がXであることを確認してください」といったリアルタイムのフィードバックを受ける。
- インテリジェント・ボディの設定src/app/agentConfigs/ ディレクトリにインテリジェンスの設定ファイルがあります。これらのファイルを編集することで、インテリジェンスの動作を変更したり、新しいインテリジェンスを追加したり、既存のインテリジェンスのロジックを調整したりできます。
開発者向けヒント
- インテリジェンスの行動を拡張したり修正したりするには、まず既存のインテリジェンスを研究することが推奨される。エージェント設定ファイルを作成しエージェント転送インテリジェンス間の引き継ぎを可能にするツール。
- インテリジェンス間のやりとりや状態の変化はすべて、UIの「会話の記録」セクションに表示され、デバッグや改善が簡単に行えます。
OpenAI Realtime Agentsを使って、マルチインテリジェンス・ボディー・ボイス・インタラクション・アプリケーションを開発することができます。