OpenAI WebRTC Python: OpenAI 실시간 API와의 음성 상호작용을 위한 Python 라이브러리

54.5K 00

일반 소개

OpenAI 실시간 WebRTC 파이썬은 개발자에게 OpenAI 실시간 API와 음성 상호작용을 위한 완벽한 솔루션을 제공하는 전문 파이썬 라이브러리입니다. 이 프로젝트는 지연 시간이 짧은 실시간 오디오 전송 기능을 가능하게 하는 WebRTC 기술을 기반으로 합니다. 자동 오디오 장치 관리 및 샘플 레이트 변환을 지원할 뿐만 아니라 사운드 오디오 버퍼 관리 메커니즘도 제공합니다. 이 프로젝트는 MIT 라이선스에 따라 오픈 소스로 제공되며 Windows, macOS, Linux 등 다양한 운영 체제 플랫폼을 지원합니다. 개발자는 라이브러리를 통해 실시간 음성 인식, 오디오 스트림 처리 및 기타 고급 기능을 쉽게 구현할 수 있으며, 특히 실시간 음성 상호 작용이 필요한 애플리케이션을 구축하는 데 적합합니다.

기능 목록

WebRTC 기반의 저지연 실시간 오디오 커뮤니케이션
OpenAI의 최신 실시간 API 인터페이스 지원
지능형 오디오 장치의 자동 관리 및 구성
적응형 오디오 샘플 레이트 변환
전문 오디오 버퍼 관리 시스템
오디오 스트림의 일시정지 및 재개 제어 지원
비동기 오디오 처리 및 이벤트 콜백 메커니즘
내장된 오디오-텍스트 변환 기능

도움말 사용

환경 준비

시스템 요구 사항
- Python 3.7 이상
- Windows, macOS, Linux 운영 체제 지원
- 시스템에 사용 가능한 오디오 장비가 있는지 확인합니다.

설치 프로세스

# 克隆项目代码
git clone https://github.com/realtime-ai/openai-realtime-webrtc-python.git
cd openai-realtime-webrtc-python
# 创建并激活虚拟环境
python -m venv venv
source venv/bin/activate  # Linux/macOS系统
# 或在Windows系统使用：
# .\venv\Scripts\activate
# 安装依赖包
pip install -r requirements.txt
# 开发模式安装
pip install -e .

구성 설정

환경 변수 구성
- 프로젝트 루트 디렉터리에서.env논문
- OpenAI API 키를 추가합니다:
```
OPENAI_API_KEY=your-api-key-here
```

기본 사용 절차

클라이언트 인스턴스 만들기

import asyncio
from openai_realtime_webrtc import OpenAIWebRTCClient
async def main():
client = OpenAIWebRTCClient(
api_key="your-api-key",
model="gpt-4o-realtime-preview-2024-12-17"
)

콜백 함수 설정

def on_transcription(text: str):
print(f"转录文本: {text}")
client.on_transcription = on_transcription

오디오 스트리밍 시작

try:
# 开始音频流传输
await client.start_streaming()
# 保持连接运行
while True:
await asyncio.sleep(1)
except KeyboardInterrupt:
# 终止音频流
await client.stop_streaming()

고급 기능 사용

오디오 장치 관리
- 시스템이 사용 가능한 오디오 입력 장치를 자동으로 감지하고 관리합니다.
- 오디오 장치의 동적 전환 지원
- 샘플 속도 변환 자동 처리
오디오 흐름 제어
- 언제든지 오디오 스트리밍 일시 중지/재개 지원
- 오디오 버퍼 관리 기능 제공
- 네트워크 지연 및 지터 자동 처리
오류 처리 및 모니터링
- 기본 제공 오류 감지 및 예외 처리 메커니즘
- 오디오 품질 모니터링 지원
- 자세한 디버깅 정보 제공