Voxtral - Mistral AIによるオープンソース音声モデル

51.3K 00

ヴォクストラルとは？

ヴォクストラル、そうだ。ミストラルAI Voxtralは最先端のオープンソース音声モデルであり、強力な音声転写と理解機能を通じて、人間とコンピュータの自然な相互作用の進歩をサポートします。Voxtralは多言語対応で、自動的に言語を検出し、最大30分の音声トランスクリプションと40分の音声理解を処理することができます。VoxtralはQ&Aと要約機能を内蔵しており、追加の言語モデルを必要とせずに構造化されたコンテンツを生成することができ、音声対話の効率とコストを最適化するためにバックエンドの機能呼び出しを直接トリガーすることができます。Voxtralは音声認識と自然言語理解にディープラーニング技術を組み合わせており、会議録音、顧客サービス、コンテンツ作成、教育、インテリジェントアシスタントなどの分野で広く使用することができ、音声対話の普及に貢献します。会議録音、顧客サービス、コンテンツ作成、教育、インテリジェントアシスタントなどの分野で広く使用され、音声対話の普及に貢献しています。

Voxtralの主な特徴

長いオーディオ処理能力最大30分の音声トランスクリプションと最大40分の詳細な理解に対応。
スマートなQ&Aとまとめ音声コンテンツへの直接質問をサポートし、音声認識や言語モデリング支援を追加することなく、明確な構造化要約を生成します。
多言語自動認識多くの主要言語（英語、フランス語、スペイン語など）をサポートし、異なる地域のユーザーのニーズを満たすために自動的に言語を検出することができます。
ボイス・コマンド・トリガーAPIの最新バージョンは、音声コマンドに基づいてバックエンド機能やAPIコールを直接トリガーできるもので、操作プロセスを簡素化し、対話効率を向上させる。
テキストの理解と処理テキスト入力と処理をサポートする強力なテキスト理解力。
効率的な転写性能大規模なアプリケーションに最適化されたトランスクリプションサービスを低コストで提供します。

ヴォクストラルの公式ホームページアドレス

プロジェクトのウェブサイト:: https://mistral.ai/news/voxtral
HuggingFaceモデルライブラリ::
- https://huggingface.co/mistralai/Voxtral-Small-24B-2507
- https://huggingface.co/mistralai/Voxtral-Mini-3B-2507

ヴォクストラルの使い方

公式ウェブサイトを見るVoxtralのプロジェクトウェブサイトとHuggingFaceモデルライブラリをご覧ください。
正しいバージョンを選ぶ::
- Voxtral-Small-24B-2507生産規模に適しており、性能が向上している。
- ヴォクストラル-ミニ3B-2507ローカル展開に適しており、リソースをあまり必要としない。
依存関係のインストールPythonと必要な依存関係があなたの環境にインストールされていることを確認してください。 transformers 歌で応える torch.使用する次のコマンドでインストールします。::

pip install transformers torch

積載モデルハギング・フェイスの transformersライブラリーはVoxtralモデルをロードする：

from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor

model_name = "mistralai/Voxtral-Small-24B-2507"  # 或者 "mistralai/Voxtral-Mini-3B-2507"
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

オーディオデータの準備オーディオファイル形式がサポートされている形式（例：WAV、MP3など）であることを確認してください。
- 音声を書き起こしたもの：Voxtralモデルによる音声転写：

from transformers import pipeline

# 创建一个语音转录 pipeline
transcriber = pipeline("automatic-speech-recognition", model=model_name)

# 转录音频文件
transcription = transcriber("path/to/your/audio/file.wav")
print(transcription)