Introdução geral
O OpenAI Realtime WebRTC Python é uma biblioteca Python profissional que oferece aos desenvolvedores uma solução completa para interação de voz com a API OpenAI Realtime. O projeto é baseado na tecnologia WebRTC, que permite recursos de transmissão de áudio em tempo real de baixa latência. Ele não apenas oferece suporte ao gerenciamento automático de dispositivos de áudio e à conversão de taxa de amostragem, mas também fornece um mecanismo de gerenciamento de buffer de áudio de som. O projeto é de código aberto sob a licença MIT e é compatível com várias plataformas de sistema operacional, como Windows, macOS e Linux. Com a biblioteca, os desenvolvedores podem implementar facilmente o reconhecimento de fala em tempo real, o processamento de fluxo de áudio e outros recursos avançados, especialmente adequados para a criação de aplicativos que exigem interação de voz em tempo real.
Lista de funções
- Comunicação de áudio em tempo real de baixa latência baseada em WebRTC
- Suporte para a mais recente interface de API em tempo real da OpenAI
- Gerenciamento e configuração automáticos de dispositivos de áudio inteligentes
- Conversão adaptativa da taxa de amostragem de áudio
- Sistema de gerenciamento de buffer de áudio profissional
- Oferece suporte ao controle de pausa e retomada de fluxos de áudio
- Processamento de áudio assíncrono e mecanismo de retorno de chamada de evento
- Função integrada de áudio para texto
Usando a Ajuda
Preparação ambiental
- Requisitos do sistema
- Python 3.7 ou superior
- Compatível com os sistemas operacionais Windows, macOS e Linux
- Certifique-se de que o sistema tenha equipamento de áudio disponível
- processo de instalação
# 克隆项目代码 git clone https://github.com/realtime-ai/openai-realtime-webrtc-python.git cd openai-realtime-webrtc-python # 创建并激活虚拟环境 python -m venv venv source venv/bin/activate # Linux/macOS系统 # 或在Windows系统使用: # .\venv\Scripts\activate # 安装依赖包 pip install -r requirements.txt # 开发模式安装 pip install -e .
Definições de configuração
- Configuração da variável de ambiente
- No diretório raiz do projeto, crie o arquivo
.env
papéis - Adicione a chave da API da OpenAI:
OPENAI_API_KEY=your-api-key-here
- No diretório raiz do projeto, crie o arquivo
Processo de uso básico
- Criando uma instância de cliente
import asyncio from openai_realtime_webrtc import OpenAIWebRTCClient async def main(): client = OpenAIWebRTCClient( api_key="your-api-key", model="gpt-4o-realtime-preview-2024-12-17" )
- Configuração da função de retorno de chamada
def on_transcription(text: str): print(f"转录文本: {text}") client.on_transcription = on_transcription
- Iniciar a transmissão de áudio
try: # 开始音频流传输 await client.start_streaming() # 保持连接运行 while True: await asyncio.sleep(1) except KeyboardInterrupt: # 终止音频流 await client.stop_streaming()
Uso de funções avançadas
- Gerenciamento de dispositivos de áudio
- O sistema detecta e gerencia automaticamente os dispositivos de entrada de áudio disponíveis
- Suporta comutação dinâmica de dispositivos de áudio
- Tratamento automático da conversão da taxa de amostragem
- controle de fluxo de áudio
- Suporta pausar/retomar a transmissão de áudio a qualquer momento
- Oferece gerenciamento de buffer de áudio
- Tratamento automático da latência e do jitter da rede
- Tratamento e monitoramento de erros
- Mecanismos integrados de detecção de erros e tratamento de exceções
- Suporte ao monitoramento da qualidade do áudio
- Fornecer informações detalhadas de depuração
advertência
- Garantir uma conectividade de rede estável
- Verificar periodicamente a validade da chave da API
- Monitore o status dos seus dispositivos de áudio.
- Controle razoável do tempo de início e interrupção do fluxo de áudio