Deepgram: API de serviço para soluções de reconhecimento e síntese de fala de alta precisão

Recursos mais recentes de IAAtualizado há 6 meses Círculo de compartilhamento de IA

Introdução geral

A Deepgram é uma empresa especializada em reconhecimento de fala e tecnologias de processamento de linguagem natural, oferecendo APIs avançadas de fala para texto e texto para fala. A plataforma utiliza tecnologias avançadas de inteligência artificial para ajudar os desenvolvedores a integrar recursos de transcrição e compreensão de fala em seus aplicativos e serviços. As soluções da Deepgram são amplamente utilizadas em diversos campos, como transcrição médica, atendimento automatizado ao cliente, transcrição de podcasts, etc., e são dedicadas a melhorar a eficiência e a experiência da interação humano-computador.

Lista de funções

Conversão de fala em texto (STT)Oferece serviços de conversão de voz em texto de alta precisão e baixa latência que suportam vários idiomas e sotaques.
Conversão de texto em fala (TTS)Geração de voz natural e suave para IA em tempo real e aplicativos de alto rendimento.
Inteligência de áudio (IA)Análise de áudio: fornece recursos de análise e compreensão de áudio para ajudar as organizações a realizar análises de dados de áudio em larga escala.
API do agente de voz (API do agente de voz)API de fala unificada que oferece suporte ao diálogo natural homem-máquina para uma variedade de cenários de aplicativos de automação.

Usando a Ajuda

Instalação e uso

registrar uma conta: Visite o site oficial do Deepgram e registre uma nova conta.
Obter chave de APIApós fazer login na sua conta, obtenha a chave da API no console.

API integrada::

Conversão de fala em texto (STT)::

Python

import requests

url = "https://api.deepgram.com/v1/listen"
headers = {
    "Authorization": "Token YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "url": "https://path.to/your/audio/file.wav"
}
response = requests.post(url, headers=headers, json=data)
print(response.json())

Conversão de texto em fala (TTS)::

Python

import requests

url = "https://api.deepgram.com/v1/speak"
headers = {
    "Authorization": "Token YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "text": "Hello, this is a test.",
    "voice": "en_us_male"
}
response = requests.post(url, headers=headers, json=data)
with open("output.wav", "wb") as f:
    f.write(response.content)

Processamento de fala em tempo realReconhecimento de fala em tempo real usando conexões WebSocket.

Python

import websocket
import json

def on_message(ws, message):
    print(json.loads(message))

ws = websocket.WebSocketApp(
    "wss://api.deepgram.com/v1/listen",
    header={"Authorization": "Token YOUR_API_KEY"},
    on_message=on_message
)
ws.run_forever()

Guia do usuário de conversão de fala em texto

API integradaIntegração da API Speech-to-Text do Deepgram em seu aplicativo: você pode consultar o código de exemplo na documentação oficial para integração.
Carregamento de arquivos de áudioUpload de arquivos de áudio a serem transcritos via API, suporte a vários formatos de áudio.
Obter resultados de transcriçãoA API retorna resultados de texto transcritos que podem ser processados e exibidos em seu aplicativo.

Guia do usuário de conversão de texto em fala

API integradaIntegração da API Text-to-Speech do Deepgram em seu aplicativo.
texto de entradaConteúdo de texto de entrada a ser convertido em fala por meio da API.
Obtendo saída de vozA API retorna o arquivo de fala gerado, que pode ser reproduzido ou armazenado em seu aplicativo.

Guia do usuário de inteligência de áudio

API integradaIntegração da API de inteligência de áudio do Deepgram em seu aplicativo.
Carregamento de arquivos de áudioUpload de arquivos de áudio a serem analisados por meio da API.
Obtenção de resultados de análiseA API retorna resultados de análise de áudio, incluindo análise de sentimentos, extração de palavras-chave e outras informações.

Guia do usuário da API do agente de voz (API do agente de voz)

API integradaIntegração da API do Voice Agent do Deepgram em seu aplicativo.
Configuração do modelo de diálogoConfigure o modelo de diálogo apropriado de acordo com o cenário do aplicativo.
Possibilitando o diálogo homem-máquinaPermitir o diálogo natural e suave entre homem e máquina por meio de APIs para aprimorar a experiência do usuário.

Registre-se e receba um crédito de 200 facas para chamar toda a gama de APIs.