OpenAI WebRTC Python: OpenAIリアルタイムAPIと音声対話するためのPythonライブラリ

43.5K 00

はじめに

OpenAI Realtime WebRTC Pythonは、OpenAI Realtime APIを使った音声インタラクションの完全なソリューションを開発者に提供する、プロフェッショナルなPythonライブラリです。このプロジェクトはWebRTC技術に基づいており、低遅延のリアルタイム音声伝送が可能です。自動音声デバイス管理とサンプルレート変換をサポートするだけでなく、音声バッファ管理メカニズムも提供します。このプロジェクトはMITライセンスの下でオープンソースであり、Windows、macOS、Linuxなどの複数のオペレーティング・システム・プラットフォームをサポートしています。このライブラリを通じて、開発者はリアルタイム音声認識、音声ストリーム処理、その他の高度な機能を簡単に実装することができ、特にリアルタイムの音声インタラクションを必要とするアプリケーションの構築に適しています。

機能一覧

WebRTCに基づく低遅延リアルタイム音声通信
OpenAIの最新リアルタイムAPIインターフェイスをサポート
インテリジェント・オーディオ・デバイスの自動管理と設定
適応型オーディオ・サンプル・レート変換
プロフェッショナル・オーディオ・バッファ管理システム
オーディオ・ストリームの一時停止と再開をサポート
非同期オーディオ処理とイベントコールバックメカニズム
音声テキスト化機能内蔵

ヘルプの使用

環境準備

システム要件
- Python 3.7以上
- Windows、macOS、Linuxオペレーティングシステムに対応
- システムにオーディオ機器があることを確認する。

インストールプロセス

# 克隆项目代码
git clone https://github.com/realtime-ai/openai-realtime-webrtc-python.git
cd openai-realtime-webrtc-python
# 创建并激活虚拟环境
python -m venv venv
source venv/bin/activate  # Linux/macOS系统
# 或在Windows系统使用：
# .\venv\Scripts\activate
# 安装依赖包
pip install -r requirements.txt
# 开发模式安装
pip install -e .

コンフィギュレーション設定

環境変数の設定
- プロジェクトのルート・ディレクトリに.env書類
- OpenAI API キーを追加します：
```
OPENAI_API_KEY=your-api-key-here
```

基本的な使用プロセス

クライアントインスタンスの作成

import asyncio
from openai_realtime_webrtc import OpenAIWebRTCClient
async def main():
client = OpenAIWebRTCClient(
api_key="your-api-key",
model="gpt-4o-realtime-preview-2024-12-17"
)

コールバック関数の設定

def on_transcription(text: str):
print(f"转录文本: {text}")
client.on_transcription = on_transcription

オーディオ・ストリーミングの開始

try:
# 开始音频流传输
await client.start_streaming()
# 保持连接运行
while True:
await asyncio.sleep(1)
except KeyboardInterrupt:
# 终止音频流
await client.stop_streaming()

高度な機能の使用

オーディオ機器管理
- 利用可能なオーディオ入力デバイスを自動的に検出し、管理します。
- オーディオ・デバイスのダイナミック・スイッチングに対応
- サンプルレート変換の自動処理
オーディオ・フロー・コントロール
- いつでもオーディオ・ストリーミングの一時停止/再開が可能
- オーディオ・バッファ管理を提供
- ネットワーク遅延とジッターの自動処理
エラー処理と監視
- 組み込みのエラー検出と例外処理メカニズム
- 音質モニタリングに対応
- 詳細なデバッグ情報の提供