はじめに
Ultravoxは、リアルタイム音声処理のために設計された革新的なマルチモーダル大規模言語モデル(LLM)です。従来の音声認識システムとは異なり、Ultravoxは個別の音声認識(ASR)ステージを必要とせず、高次元空間の音声を直接テキストに変換することができます。Llama 3、Mistral、Gemmaなどのモデルで訓練されたUltravoxは、テキストと人間の音声の両方を理解することができ、将来的には、音声の時間的・感情的な手がかりをネイティブに理解できるようになる予定です。Ultravoxの現在のバージョンは、音声コンテンツを処理する際に初めてテキストを生成するのに約150ミリ秒かかり、1秒間に約60のトークンを生成する。
機能一覧
- リアルタイムの音声処理:ASRステージを別に設けることなく、音声を直接テキストに変換します。
- マルチモーダルサポート:テキストや音声を理解することができ、将来的には感情や時間的な合図もサポートする。
- 効率的な応答:最初のテキスト生成時間は約150msで、1秒間に約60のタグを生成する。
- 複数のモデルに対応:ラマ3、ミストラル、ジェンマなどのモデルに基づいたトレーニング。
- オープンソースプロジェクト:コードとモデルウェイトはGitHubとHugging Faceで入手可能。
- デモとAPI:ユーザーがすぐに始められるように、GradioのデモとホストされたAPIを提供する。
ヘルプの使用
設置プロセス
- 環境設定::
- Macユーザーには、Homebrewのインストールをお勧めします。以下のコマンドを実行してHomebrewをインストールしてください:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Homebrewをアップデートし、必要なツールをインストールする:
brew update brew install just
- クローンプロジェクト::
- 以下のコマンドを使用して、Ultravoxプロジェクトをクローンする:
git clone https://github.com/fixie-ai/ultravox.git cd ultravox
- 依存関係のインストール::
- プロジェクトの依存関係をインストールするには、以下のコマンドを使用する:
バッシュ
pip install -r requirements.txt
- プロジェクトの依存関係をインストールするには、以下のコマンドを使用する:
使用プロセス
- ランニング・デモ::
- UltravoxはGradioデモを提供しており、ユーザーは以下のコマンドでローカルデモを実行できる:
gradio --voice_mode=True
- Ultravoxのリアルタイム・ボイス・プロセッシングを体験するには、現地URLをご覧ください。
- APIの使用::
- UltravoxはホスティングされたAPIのセットを提供し、ユーザーは以下の手順でアクセスすることができます:
- UltravoxのAPIページにアクセスして登録し、APIキーを取得してください。
- APIキーを使用して、Ultravoxのリアルタイム音声処理サービスを呼び出します。
- UltravoxはホスティングされたAPIのセットを提供し、ユーザーは以下の手順でアクセスすることができます:
- カスタムモデルのトレーニング::
- ユーザーは必要に応じて独自のUltravoxモデルをトレーニングすることができます。詳細なトレーニングステップと設定ファイルは、プロジェクトのREADMEファイルにあります。
主な機能
- リアルタイム音声処理::
- 音声ファイルを録音またはアップロードすると、Ultravoxが自動的に音声をテキストに変換します。
- ストリーミング処理に対応しており、ユーザーは変換結果をリアルタイムで見ることができる。
- マルチモーダルサポート::
- テキストまたは音声を入力すると、Ultravoxは複数の形式の入力を理解し、処理することができる。
- 将来のバージョンでは、感情的・時間的手がかりのネイティブな理解をサポートする予定だ。
- 効率的な対応::
- Ultravoxは、第一世代のテキストに対して約150ミリ秒でオーディオコンテンツを処理し、1秒間に約60のマーカーを生成し、効率的なリアルタイム応答を保証する。