Deepgram: API de servicios para soluciones de reconocimiento y síntesis del habla de alta precisión

Últimos recursos sobre IAActualizado hace 12 meses Círculo de intercambio de inteligencia artificial

Introducción general

Deepgram es una empresa especializada en tecnologías de reconocimiento de voz y procesamiento del lenguaje natural, que ofrece potentes API de conversión de voz a texto y de texto a voz. La plataforma aprovecha tecnologías avanzadas de IA para ayudar a los desarrolladores a integrar capacidades de transcripción y comprensión de voz en sus aplicaciones y servicios. Las soluciones de Deepgram se utilizan ampliamente en diversos campos, como la transcripción médica, la atención al cliente automatizada, la transcripción de podcasts, etc., y se dedican a mejorar la eficacia y la experiencia de la interacción entre el ser humano y el ordenador.

Lista de funciones

Voz a texto (STT): Proporciona servicios de conversión de voz a texto de alta precisión y baja latencia que admiten varios idiomas y acentos.
Texto a voz (TTS)Generación de voz natural y fluida para aplicaciones de inteligencia artificial y alto rendimiento en tiempo real.
Inteligencia sonora (IA): Proporciona capacidades de análisis y comprensión de audio para ayudar a las organizaciones a realizar análisis de datos de audio a gran escala.
Voice Agent API (API de agente de voz)Unified Speech API: API de voz unificada que admite el diálogo natural entre humanos y máquinas para diversos escenarios de aplicaciones de automatización.

Utilizar la ayuda

Instalación y uso

registrar una cuentaVisita el sitio web oficial de Deepgram y crea una nueva cuenta.
Obtener clave APIDespués de conectarse a su cuenta, obtenga la clave API en la consola.

API integrada::

Voz a texto (STT)::

Python

import requests

url = "https://api.deepgram.com/v1/listen"
headers = {
    "Authorization": "Token YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "url": "https://path.to/your/audio/file.wav"
}
response = requests.post(url, headers=headers, json=data)
print(response.json())

Texto a voz (TTS)::

Python

import requests

url = "https://api.deepgram.com/v1/speak"
headers = {
    "Authorization": "Token YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "text": "Hello, this is a test.",
    "voice": "en_us_male"
}
response = requests.post(url, headers=headers, json=data)
with open("output.wav", "wb") as f:
    f.write(response.content)

Procesamiento del habla en tiempo real: Reconocimiento del habla en tiempo real mediante conexiones WebSocket.

Python

import websocket
import json

def on_message(ws, message):
    print(json.loads(message))

ws = websocket.WebSocketApp(
    "wss://api.deepgram.com/v1/listen",
    header={"Authorization": "Token YOUR_API_KEY"},
    on_message=on_message
)
ws.run_forever()

Guía del usuario de voz a texto

API integradaIntegra la API de voz a texto de Deepgram en tu aplicación. Puedes consultar el código de ejemplo en la documentación oficial para la integración.
Cargar archivos de audioSube archivos de audio para transcribirlos a través de la API, soporta múltiples formatos de audio.
Obtener resultados de transcripciónLa API devuelve resultados de texto transcrito que usted puede procesar y mostrar en su aplicación.

Guía del usuario de texto a voz

API integradaIntegra la API de texto a voz de Deepgram en tu aplicación.
texto introducido: Contenido de texto de entrada que se convertirá en voz a través de la API.
Obtener salida de vozLa API devuelve el archivo de voz generado, que puede reproducir o almacenar en su aplicación.

Guía del usuario de Audio Intelligence

API integradaIntegra la API de Inteligencia de Audio de Deepgram en tu aplicación.
Cargar archivos de audioCarga archivos de audio para analizarlos a través de la API.
Obtención de resultados de análisis: La API devuelve los resultados del análisis de audio, incluido el análisis de sentimiento, la extracción de palabras clave y otra información.

Guía del usuario de la API de agente de voz (Voice Agent API)

API integradaIntegre la API de agente de voz de Deepgram en su aplicación.
Configurar el modelo de diálogoConfigure el modelo de diálogo apropiado según el escenario de la aplicación.
Facilitar el diálogo entre personas y máquinas: Permita un diálogo natural y fluido entre el hombre y la máquina a través de API para mejorar la experiencia del usuario.

Regístrese y obtenga un crédito de 200 cuchillas para llamar a toda la gama de API.