Ultravox: リアルタイムのエンドツーエンド音声対話のための音声マルチモーダル・マクロモデル、GPT-4o音声対話のオープンソース実装

46.8K 00

はじめに

Ultravoxは、リアルタイム音声処理のために設計された革新的なマルチモーダル大規模言語モデル（LLM）です。従来の音声認識システムとは異なり、Ultravoxは個別の音声認識（ASR）ステージを必要とせず、高次元空間の音声を直接テキストに変換することができます。Llama 3、Mistral、Gemmaなどのモデルで訓練されたUltravoxは、テキストと人間の音声の両方を理解することができ、将来的には、音声の時間的・感情的な手がかりをネイティブに理解できるようになる予定です。Ultravoxの現在のバージョンは、音声コンテンツを処理する際に初めてテキストを生成するのに約150ミリ秒かかり、1秒間に約60のトークンを生成する。

Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

機能一覧

リアルタイムの音声処理：ASRステージを別に設けることなく、音声を直接テキストに変換します。
マルチモーダルサポート：テキストや音声を理解することができ、将来的には感情や時間的な合図もサポートする。
効率的な応答：最初のテキスト生成時間は約150msで、1秒間に約60のタグを生成する。
複数のモデルに対応：ラマ3、ミストラル、ジェンマなどのモデルに基づいたトレーニング。
オープンソースプロジェクト：コードとモデルウェイトはGitHubとHugging Faceで入手可能。
デモとAPI：ユーザーがすぐに始められるように、GradioのデモとホストされたAPIを提供する。

ヘルプの使用

設置プロセス

環境設定::
- Macユーザーには、Homebrewのインストールをお勧めします。以下のコマンドを実行してHomebrewをインストールしてください：
```
 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
```
- Homebrewをアップデートし、必要なツールをインストールする：
```
 brew update
brew install just
```
クローンプロジェクト::
- 以下のコマンドを使用して、Ultravoxプロジェクトをクローンする：
```
 git clone https://github.com/fixie-ai/ultravox.git
cd ultravox
```
依存関係のインストール::
- プロジェクトの依存関係をインストールするには、以下のコマンドを使用する： bash pip install -r requirements.txt

使用プロセス

ランニング・デモ::
- UltravoxはGradioデモを提供しており、ユーザーは以下のコマンドでローカルデモを実行できる：
```
 gradio --voice_mode=True
```
- Ultravoxのリアルタイム・ボイス・プロセッシングを体験するには、現地URLをご覧ください。
APIの使用::
- UltravoxはホスティングされたAPIのセットを提供し、ユーザーは以下の手順でアクセスすることができます：
  - UltravoxのAPIページにアクセスして登録し、APIキーを取得してください。
  - APIキーを使用して、Ultravoxのリアルタイム音声処理サービスを呼び出します。
カスタムモデルのトレーニング::
- ユーザーは必要に応じて独自のUltravoxモデルをトレーニングすることができます。詳細なトレーニングステップと設定ファイルは、プロジェクトのREADMEファイルにあります。

主な機能

リアルタイム音声処理::
- 音声ファイルを録音またはアップロードすると、Ultravoxが自動的に音声をテキストに変換します。
- ストリーミング処理に対応しており、ユーザーは変換結果をリアルタイムで見ることができる。
マルチモーダルサポート::
- テキストまたは音声を入力すると、Ultravoxは複数の形式の入力を理解し、処理することができる。
- 将来のバージョンでは、感情的・時間的手がかりのネイティブな理解をサポートする予定だ。
効率的な対応::
- Ultravoxは、第一世代のテキストに対して約150ミリ秒でオーディオコンテンツを処理し、1秒間に約60のマーカーを生成し、効率的なリアルタイム応答を保証する。