はじめに
Deepgramは音声認識と自然言語処理技術に特化した企業で、強力なSpeech-to-TextおよびText-to-Speech APIを提供しています。このプラットフォームは高度な人工知能技術を活用し、開発者が音声書き起こしおよび理解機能をアプリケーションやサービスに統合できるよう支援します。Deepgramのソリューションは、医療トランスクリプション、自動顧客サービス、ポッドキャスト・トランスクリプションなど、さまざまな分野で広く利用されており、人間とコンピュータの対話の効率とエクスペリエンスの向上に取り組んでいます。
機能一覧
- 音声テキスト化(STT)高精度、低遅延、多言語、アクセントに対応した音声テキストサービスを提供。
- 音声合成 (TTS)リアルタイムのAIや高スループットアプリケーションのための自然で滑らかな音声出力を生成します。
- オーディオ・インテリジェンス(AI)大規模なオーディオデータ分析を行う組織を支援するために、オーディオ分析と理解機能を提供します。
- 音声エージェントAPI(Voice Agent API)さまざまなオートメーション・アプリケーションのシナリオで、人間と機械の自然な対話をサポートする統合音声API。
ヘルプの使用
インストールと使用
- アカウント登録Deepgramの公式サイトにアクセスし、新規アカウントを登録する。
- APIキーの取得アカウントにログイン後、コンソールでAPIキーを取得します。
- 統合API::
- 音声テキスト化(STT)::
パイソン
import requests url = "https://api.deepgram.com/v1/listen" headers = { "Authorization": "Token YOUR_API_KEY", "Content-Type": "application/json" } data = { "url": "https://path.to/your/audio/file.wav" } response = requests.post(url, headers=headers, json=data) print(response.json())
- 音声合成 (TTS)::
パイソン
import requests url = "https://api.deepgram.com/v1/speak" headers = { "Authorization": "Token YOUR_API_KEY", "Content-Type": "application/json" } data = { "text": "Hello, this is a test.", "voice": "en_us_male" } response = requests.post(url, headers=headers, json=data) with open("output.wav", "wb") as f: f.write(response.content)
- 音声テキスト化(STT)::
- リアルタイム音声処理WebSocket接続を使ったリアルタイム音声認識。
パイソン
import websocket import json def on_message(ws, message): print(json.loads(message)) ws = websocket.WebSocketApp( "wss://api.deepgram.com/v1/listen", header={"Authorization": "Token YOUR_API_KEY"}, on_message=on_message ) ws.run_forever()
音声テキスト・ユーザー・ガイド
- 統合APIDeepgramのSpeech-to-Text APIをアプリケーションに統合します。統合については、公式ドキュメントのサンプル・コードを参照してください。
- オーディオファイルのアップロードAPI経由で音声ファイルをアップロードし、複数の音声フォーマットをサポートします。
- トランスクリプションの結果を得るAPIは書き起こされたテキストを返すので、それをさらに加工してアプリケーションに表示することができる。
音声合成ユーザーガイド
- 統合APIDeepgramの音声合成APIをアプリケーションに統合できます。
- 入力テキストAPI経由で音声に変換するテキストコンテンツを入力します。
- 音声出力APIは生成された音声ファイルを返すので、再生したりアプリケーションに保存したりすることができます。
オーディオ・インテリジェンス・ユーザー・ガイド
- 統合APIDeepgramのオーディオ・インテリジェンスAPIをアプリケーションに統合できます。
- オーディオファイルのアップロードAPI経由で分析対象の音声ファイルをアップロードします。
- 分析結果の入手このAPIは、感情分析やキーワード抽出などの音声分析結果を返します。
音声エージェントAPI(Voice Agent API)ユーザーガイド
- 統合APIDeepgramのVoice Agent APIをアプリケーションに統合します。
- ダイアログモデルの設定アプリケーションのシナリオに応じて、適切な対話モデルを設定します。
- 人間と機械の対話を可能にするAPIを通じて人間と機械の自然でスムーズな対話を可能にし、ユーザーエクスペリエンスを向上させる。
ご登録いただくと、すべてのAPIを呼び出せる200ナイフのクレジットを差し上げます。