Deepgram: 高精度音声認識・合成ソリューション向けサービスAPI

75.9K 00

はじめに

Deepgramは音声認識と自然言語処理技術に特化した企業で、強力なSpeech-to-TextおよびText-to-Speech APIを提供しています。このプラットフォームは高度な人工知能技術を活用し、開発者が音声書き起こしおよび理解機能をアプリケーションやサービスに統合できるよう支援します。Deepgramのソリューションは、医療トランスクリプション、自動顧客サービス、ポッドキャスト・トランスクリプションなど、さまざまな分野で広く利用されており、人間とコンピュータの対話の効率とエクスペリエンスの向上に取り組んでいます。

機能一覧

音声テキスト化（STT）高精度、低遅延、多言語、アクセントに対応した音声テキストサービスを提供。
音声合成 (TTS)リアルタイムのAIや高スループットアプリケーションのための自然で滑らかな音声出力を生成します。
オーディオ・インテリジェンス（AI）大規模なオーディオデータ分析を行う組織を支援するために、オーディオ分析と理解機能を提供します。
音声エージェントAPI（Voice Agent API）さまざまなオートメーション・アプリケーションのシナリオで、人間と機械の自然な対話をサポートする統合音声API。

ヘルプの使用

インストールと使用

アカウント登録Deepgramの公式サイトにアクセスし、新規アカウントを登録する。
APIキーの取得アカウントにログイン後、コンソールでAPIキーを取得します。

統合API::

音声テキスト化（STT）::

パイソン

import requests

url = "https://api.deepgram.com/v1/listen"
headers = {
    "Authorization": "Token YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "url": "https://path.to/your/audio/file.wav"
}
response = requests.post(url, headers=headers, json=data)
print(response.json())

音声合成 (TTS)::

パイソン

import requests

url = "https://api.deepgram.com/v1/speak"
headers = {
    "Authorization": "Token YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "text": "Hello, this is a test.",
    "voice": "en_us_male"
}
response = requests.post(url, headers=headers, json=data)
with open("output.wav", "wb") as f:
    f.write(response.content)

リアルタイム音声処理WebSocket接続を使ったリアルタイム音声認識。

パイソン

import websocket
import json

def on_message(ws, message):
    print(json.loads(message))

ws = websocket.WebSocketApp(
    "wss://api.deepgram.com/v1/listen",
    header={"Authorization": "Token YOUR_API_KEY"},
    on_message=on_message
)
ws.run_forever()

音声テキスト・ユーザー・ガイド

統合APIDeepgramのSpeech-to-Text APIをアプリケーションに統合します。統合については、公式ドキュメントのサンプル・コードを参照してください。
オーディオファイルのアップロードAPI経由で音声ファイルをアップロードし、複数の音声フォーマットをサポートします。
トランスクリプションの結果を得るAPIは書き起こされたテキストを返すので、それをさらに加工してアプリケーションに表示することができる。