Deepgram：高精度音声認識・合成ソリューションサービスAPI

中国初のAI IDE インテリジェント・プログラミング・ソフトウェア 🚀体験への招待 Trae 中国語版ダウンロードDeepSeek-R1とDoubao-proは無制限で利用できる！

はじめに

Deepgramは音声認識と自然言語処理技術に特化した企業で、強力なSpeech-to-TextおよびText-to-Speech APIを提供しています。このプラットフォームは高度な人工知能技術を活用し、開発者が音声書き起こしおよび理解機能をアプリケーションやサービスに統合できるよう支援します。Deepgramのソリューションは、医療トランスクリプション、自動顧客サービス、ポッドキャスト・トランスクリプションなど、さまざまな分野で広く利用されており、人間とコンピュータの対話の効率とエクスペリエンスの向上に取り組んでいます。

Deepgram-1

機能一覧

音声テキスト化（STT）高精度、低遅延、多言語、アクセントに対応した音声テキストサービスを提供。
音声合成 (TTS)リアルタイムのAIや高スループットアプリケーションのための自然で滑らかな音声出力を生成します。
オーディオ・インテリジェンス（AI）大規模なオーディオデータ分析を行う組織を支援するために、オーディオ分析と理解機能を提供します。
音声エージェントAPI（Voice Agent API）さまざまなオートメーション・アプリケーションのシナリオで、人間と機械の自然な対話をサポートする統合音声API。

ヘルプの使用

インストールと使用

アカウント登録Deepgramの公式サイトにアクセスし、新規アカウントを登録する。
APIキーの取得アカウントにログイン後、コンソールでAPIキーを取得します。

統合API::

音声テキスト化（STT）::

パイソン

import requests

url = "https://api.deepgram.com/v1/listen"
headers = {
    "Authorization": "Token YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "url": "https://path.to/your/audio/file.wav"
}
response = requests.post(url, headers=headers, json=data)
print(response.json())

音声合成 (TTS)::

パイソン

import requests

url = "https://api.deepgram.com/v1/speak"
headers = {
    "Authorization": "Token YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "text": "Hello, this is a test.",
    "voice": "en_us_male"
}
response = requests.post(url, headers=headers, json=data)
with open("output.wav", "wb") as f:
    f.write(response.content)

リアルタイム音声処理WebSocket接続を使ったリアルタイム音声認識。

パイソン

import websocket
import json

def on_message(ws, message):
    print(json.loads(message))

ws = websocket.WebSocketApp(
    "wss://api.deepgram.com/v1/listen",
    header={"Authorization": "Token YOUR_API_KEY"},
    on_message=on_message
)
ws.run_forever()

音声テキスト・ユーザー・ガイド

統合APIDeepgramのSpeech-to-Text APIをアプリケーションに統合します。統合については、公式ドキュメントのサンプル・コードを参照してください。
オーディオファイルのアップロードAPI経由で音声ファイルをアップロードし、複数の音声フォーマットをサポートします。
トランスクリプションの結果を得るAPIは書き起こされたテキストを返すので、それをさらに加工してアプリケーションに表示することができる。

音声合成ユーザーガイド

統合APIDeepgramの音声合成APIをアプリケーションに統合できます。
入力テキストAPI経由で音声に変換するテキストコンテンツを入力します。
音声出力APIは生成された音声ファイルを返すので、再生したりアプリケーションに保存したりすることができます。

オーディオ・インテリジェンス・ユーザー・ガイド

統合APIDeepgramのオーディオ・インテリジェンスAPIをアプリケーションに統合できます。
オーディオファイルのアップロードAPI経由で分析対象の音声ファイルをアップロードします。
分析結果の入手このAPIは、感情分析やキーワード抽出などの音声分析結果を返します。

音声エージェントAPI（Voice Agent API）ユーザーガイド

統合APIDeepgramのVoice Agent APIをアプリケーションに統合します。
ダイアログモデルの設定アプリケーションのシナリオに応じて、適切な対話モデルを設定します。
人間と機械の対話を可能にするAPIを通じて人間と機械の自然でスムーズな対話を可能にし、ユーザーエクスペリエンスを向上させる。

ご登録いただくと、すべてのAPIを呼び出せる200ナイフのクレジットを差し上げます。

Deepgram: 高精度音声認識・合成ソリューション向けサービスAPI

はじめに

機能一覧

ヘルプの使用

インストールと使用

音声テキスト・ユーザー・ガイド

音声合成ユーザーガイド

オーディオ・インテリジェンス・ユーザー・ガイド

音声エージェントAPI（Voice Agent API）ユーザーガイド

関連記事

おすすめ

AIツールが見つからない？こちらをお試しください！

FLUX.1イメージジェネレーター（中国語入力対応）

最近のAIホットスポット

AIツールのススメ

AIツールの分類