はじめに
AssemblyAIは音声AI技術に特化したプラットフォームであり、開発者や企業に効率的な音声テキスト解析ツールと音声解析ツールを提供している。Universal-2は、1,250万時間以上の多言語音声トレーニングデータを持つUniversal-1の基礎の上に構築されており、実際の会話の複雑さを正確に捉え、精度の高い音声データを提供することができます。Universal-2は、1,250万時間以上の多言語音声学習データを持つUniversal-1を基盤として、実際の会話の複雑さを正確に捉え、精度の高い音声データを提供します。Universal-1と比較して、Universal-2は固有名詞認識(例:名前、ブランド)で241 TP3T、数字とアルファベットが混在するコンテンツ(例:電話番号、メールボックス)で211 TP3T、テキストフォーマット(例:句読点、大文字小文字)で151 TP3T向上し、従来モデルの「ラストマイル」精度を大幅に削減しました。"AssemblyAIは、これらの最先端技術を使いやすいAPIを通じてグローバルユーザーに開放しており、Spotify、Fireflies、その他の企業によって、会議の録音やコンテンツ分析などの分野をカバーするインテリジェントな音声製品の構築に利用されている。
機能一覧
- 音声テキストオーディオファイルやライブオーディオストリームを高精度のテキストに変換します。
- スピーカー検出複数人による対話シナリオのために、音声内の異なる話者を自動的に識別します。
- センチメント分析肯定的、否定的、中立的など、発話に含まれる感情の傾向を分析し、ユーザー体験を向上させます。
- リアルタイム転写音声エージェントやライブキャプションに適した低遅延リアルタイム音声テキスト変換機能を提供します。
- オーディオ・インテリジェンス・モデリングコンテンツレビュー、トピック検出、キーワード検索などの高度な機能が含まれています。
- LeMURフレームワーク大規模言語モデルを使って書き起こされたテキストを処理し、要約生成やQ&Aなどをサポート。
- サブタイトル・ジェネレーションSRTまたはVTTフォーマットでの字幕ファイルのエクスポートをサポートし、ビデオコンテンツの作成を容易にします。
- 個人情報保護音声に含まれる名前や電話番号などの機密情報を自動的に識別し、ブロックします。
ヘルプの使用
AssemblyAIはクラウドベースのAPIサービスで、強力な機能を利用するためにローカルにインストールする必要はありません。このガイドでは、AssemblyAIの使い方を詳しくご紹介します。
APIキーの登録と取得
- 公式ウェブサイトを見るブラウザを開き
https://www.assemblyai.com/
ホームページへ - アカウント登録右上の「Sign Up」をクリックし、Eメールアドレスとパスワードを入力して登録手続きを完了します。登録後、自動的にダッシュボードに入ります。
- キーを入手するダッシュボードの "API Key "エリアを見つけて、"Copy "をクリックしてキーをコピーする。これはAPIを呼び出すための唯一のクレデンシャルなので、大切に保管してください。
- 無料トライアル新規ユーザーのための無料クレジット。
コア機能の操作
AssemblyAIの中核はAPI統合であり、以下はPythonでUniversalファミリーのモデルを使用する例である。ウェブサイトのドキュメントを参照することで、他の言語(JavaやNode.jsなど)を使用することもできます。
音声テキスト化(ユニバーサル2)
- 予備オーディオファイルがあることを確認してください。
sample.mp3
またはURLリンク)。 - SDKのインストールターミナルで実行されます:
pip install assemblyai
- コード例::
import assemblyai as aai
aai.settings.api_key = "你的API密钥" # 替换为你的密钥
transcriber = aai.Transcriber()
transcript = transcriber.transcribe("sample.mp3")
print(transcript.text) # 输出文本,如“今天天气很好。”
- ユニバーサル2の強みデフォルトでは、Universal-2モデルが使用され、固有名詞(例:"Zhang Wei")とフォーマットされた数字(例:"6 March 2025")をUniversal-1よりも正確に認識します。処理時間は通常数秒です。
リアルタイム転写
- 適用シナリオライブストリーミング、電話会議、その他のリアルタイムニーズ。
- コード例::
from assemblyai import RealtimeTranscriber import asyncio async def on_data(data): print(data.text) # 实时输出文本 transcriber = RealtimeTranscriber( api_key="你的API密钥", sample_rate=16000, on_data=on_data ) async def start(): await transcriber.connect() await transcriber.stream() # 开始接收音频流 asyncio.run(start())
- ワークフローUniversal-2の低遅延機能は、迅速で正確な結果を保証します。
スピーカー検出
- 有効化方法::
config = aai.TranscriptionConfig(speaker_labels=True) transcript = transcriber.transcribe("sample.mp3", config=config) for utterance in transcript.utterances: print(f"说话人 {utterance.speaker}: {utterance.text}")
- 結果の例::
说话人 A: 你好,今天会议几点? 说话人 B: 下午两点。
- 注意を引くUniversal-2は、複数人での会話でより安定したパフォーマンスを発揮し、混乱を軽減します。
センチメント分析
- 有効化方法::
config = aai.TranscriptionConfig(sentiment_analysis=True) transcript = transcriber.transcribe("sample.mp3", config=config) for result in transcript.sentiment_analysis: print(f"文本: {result.text}, 情感: {result.sentiment}")
- 結果の例::
文本: 我很喜欢这个产品, 情感: POSITIVE 文本: 服务有点慢, 情感: NEGATIVE
サブタイトル・ジェネレーション
- オペレーティングコード::
transcript = transcriber.transcribe("sample.mp3") with open("captions.srt", "w") as f: f.write(transcript.export_subtitles_srt())
- 結局生成
.srt
このファイルはビデオ編集ソフトに直接インポートできる。
機能: LeMURフレームワーク
- 機能紹介LeMURはトランスクリプションの結果を大規模な言語モデルと組み合わせて処理し、例えばアブストラクトを生成します。
- 手続き::
- 成績証明書IDを取得する:
transcript = transcriber.transcribe("sample.mp3") transcript_id = transcript.id
- 要約を作成する:
from assemblyai import Lemur lemur = Lemur(api_key="你的API密钥") summary = lemur.summarize(transcript_id) print(summary.response)
- アウトプットの例:"会議でプロジェクトの進捗状況が話し合われ、来週には完了する予定です。"
- 成績証明書IDを取得する:
ほら
- 対応フォーマットMP3、WAVなど33種類のオーディオ/ビデオフォーマットに対応。
- 言語設定99以上の言語に対応しており、以下の方法でアクセスできます。
language_code="zh"
中国語を指定する。 - 課金料金については公式ウェブサイトをご覧ください。
以下の手順に従うことで、Universal-2の強力な機能をフルに活用し、効率的な音声アプリケーションを構築することができます。