Introdução geral
O OpenAI Realtime WebRTC Python é uma biblioteca Python profissional que oferece aos desenvolvedores uma solução completa para interação de voz com a API OpenAI Realtime. O projeto é baseado na tecnologia WebRTC, que permite recursos de transmissão de áudio em tempo real de baixa latência. Ele não apenas oferece suporte ao gerenciamento automático de dispositivos de áudio e à conversão de taxa de amostragem, mas também fornece um mecanismo de gerenciamento de buffer de áudio de som. O projeto é de código aberto sob a licença MIT e é compatível com várias plataformas de sistema operacional, como Windows, macOS e Linux. Com a biblioteca, os desenvolvedores podem implementar facilmente o reconhecimento de fala em tempo real, o processamento de fluxo de áudio e outros recursos avançados, especialmente adequados para a criação de aplicativos que exigem interação de voz em tempo real.
Lista de funções
- Comunicação de áudio em tempo real de baixa latência baseada em WebRTC
- Suporte para a mais recente interface de API em tempo real da OpenAI
- Gerenciamento e configuração automáticos de dispositivos de áudio inteligentes
- Conversão adaptativa da taxa de amostragem de áudio
- Sistema de gerenciamento de buffer de áudio profissional
- Oferece suporte ao controle de pausa e retomada de fluxos de áudio
- Processamento de áudio assíncrono e mecanismo de retorno de chamada de evento
- Função integrada de áudio para texto
Usando a Ajuda
Preparação ambiental
- Requisitos do sistema
- Python 3.7 ou superior
- Compatível com os sistemas operacionais Windows, macOS e Linux
- Certifique-se de que o sistema tenha equipamento de áudio disponível
- processo de instalação
# Clone o código do projeto git clone https://github.com/realtime-ai/openai-realtime-webrtc-python.git cd openai-realtime-webrtc-python # Crie e ative o ambiente virtual python -m venv venv source venv/bin/activate # Sistema Linux/macOS # ou em sistemas Windows: # . \venv\Scripts\activate # Instalar dependências pip install -r requirements.txt Instalação do modo de desenvolvimento do # pip install -e .
Definições de configuração
- Configuração da variável de ambiente
- No diretório raiz do projeto, crie o arquivo
.env
papéis - Adicione a chave da API da OpenAI:
OPENAI_API_KEY=sua-chave-api aqui
- No diretório raiz do projeto, crie o arquivo
Processo de uso básico
- Criando uma instância de cliente
importar asyncio de openai_realtime_webrtc import OpenAIWebRTCClient async def main(): cliente = OpenAIWebRTCClient() cliente = OpenAIWebRTCClient( model="gpt-4o-realtime-preview-2024-12-17" )
- Configuração da função de retorno de chamada
def on_transcription(text: str). print(f "Texto da transcrição: {text}") client.on_transcription = on_transcription
- Iniciar a transmissão de áudio
tentar. # inicia a transmissão de áudio await client.start_streaming() # Manter a conexão em execução while True: aguarde asyncio.sleep(1) aguarde asyncio.sleep(1) except KeyboardInterrupt: # Encerre o streaming de áudio. # Encerrar o streaming de áudio aguardar cliente.stop_streaming()
Uso de funções avançadas
- Gerenciamento de dispositivos de áudio
- O sistema detecta e gerencia automaticamente os dispositivos de entrada de áudio disponíveis
- Suporta comutação dinâmica de dispositivos de áudio
- Tratamento automático da conversão da taxa de amostragem
- controle de fluxo de áudio
- Suporta pausar/retomar a transmissão de áudio a qualquer momento
- Oferece gerenciamento de buffer de áudio
- Tratamento automático da latência e do jitter da rede
- Tratamento e monitoramento de erros
- Mecanismos integrados de detecção de erros e tratamento de exceções
- Suporte ao monitoramento da qualidade do áudio
- Fornecer informações detalhadas de depuração
advertência
- Garantir uma conectividade de rede estável
- Verificar periodicamente a validade da chave da API
- Monitore o status dos seus dispositivos de áudio.
- Controle razoável do tempo de início e interrupção do fluxo de áudio