AIパーソナル・ラーニング
と実践的なガイダンス

VITA: リアルタイム視覚・音声インタラクションのためのオープンソース・マルチモーダル大規模言語モデル

はじめに

VITAは、真の完全なマルチモーダルインタラクションを実現する能力を開拓する、オープンソースの主要な対話型マルチモーダル大規模言語モデリングプロジェクトです。プロジェクトは2024年8月にVITA-1.0を発表し、初のオープンソース対話型マルチモーダル大規模言語モデルの先駆者となりました。2024年12月、プロジェクトはメジャーアップグレードバージョンのVITA-1.5を発表し、インタラクション体験とパフォーマンスを大幅に改善しました。VITAモデルは、画像、ビデオ、音声などのマルチモーダル入出力をサポートし、リアルタイムインタラクション機能を備え、エンドツーエンドの音声インタラクションの待ち時間を4秒から1.5秒に大幅に短縮しました。VITAモデルは、画像、ビデオ、音声などのマルチモーダル入出力をサポートし、リアルタイム・インタラクション機能を備えているため、エンド・ツー・エンドの音声インタラクションの待ち時間を4秒から1.5秒に大幅に短縮し、ユーザー体験を大幅に改善します。完全なオープンソースプロジェクトとして、VITAは研究者や開発者がマルチモーダルAIを探求するための理想的なプラットフォームを提供します。

VITA: 視覚と音声のリアルタイム相互作用のためのオープンソース・マルチモーダル大規模言語モデル-1


 

機能一覧

  • マルチモーダル入力処理:画像、ビデオ、音声などの入力に対応
  • リアルタイムの音声対話:エンド・ツー・エンドの音声対話の待ち時間はわずか1.5秒
  • ビジュアル分析機能:強力な画像・映像の理解・分析機能
  • 音声処理:音声認識と音声合成をサポート
  • クロスモーダル理解:テキスト、画像、音声の知的相関を目指して
  • オープンソースのサポート:トレーニングおよび推論コードはすべてオープンです。
  • 事前学習済みモデル:複数のバージョンの事前学習済みモデルを利用可能
  • 柔軟な導入オプション:複数のハードウェアプラットフォームの導入をサポート

 

VITA-1.5の概要

2024年8月12日、我々は以下を発表した。 VITA-1.0これは 初のオープンソース・インタラクティブ・オールインワン・マルチモーダル・マクロ言語モデル.そして今(2024年12月20日)、私たちはあなたに次の記事をお届けする。 新バージョンVITA-1.5!

VITA-1.5の新機能は?

を発表する。 VITA-1.5を発表した:

  1. インタラクションの待ち時間を大幅に短縮..エンド・ツー・エンドの音声インタラクションの待ち時間は、以前より長くなっている。 約4秒 削減 1.5秒ほぼ瞬時のインタラクションを可能にし、ユーザー体験を大幅に向上させる。
  2. マルチモーダル性能の向上.で エムエムイーそしてMMBench 歌で応える 数学ビスタ のようなマルチモーダルベンチマークにおける平均的なパフォーマンスである。 59.8 に引き上げる。 70.8.
  3. 音声処理能力の強化..ASR WER(Word Error Rate, Test Other)は、従来の1.5倍から2.5倍に向上し、音声処理能力の新たなレベルを達成した。 18.4 に減少 7.5.さらに エンド・ツー・エンドTTSモジュール VITA-1.0のスタンドアロンTTSモジュールに代わるもので、大規模な言語モデルの埋め込みを入力として受け付ける。
  4. 段階的トレーニング戦略.このように、音声モジュールの搭載は、他のマルチモーダル性能(視覚-言語)にはほとんど影響を与えない。画像理解の平均成績は71.3から70.8に低下しただけである。

結果

  • 画像・映像理解ベンチマークテストの評価

VITA: 視覚と音声のリアルタイム相互作用のためのオープンソース・マルチモーダル大規模言語モデル-1

  • VITA-1.5、ASRベンチマークでプロフェッショナル音声モデルを上回る

VITA: 視覚と音声のリアルタイム相互作用のためのオープンソース・マルチモーダル大規模言語モデル-1

  • 音声モダリティを組み込んでも、画像や映像の理解にはほとんど影響がない。

VITA: 視覚と音声のリアルタイム相互作用のためのオープンソース・マルチモーダル大規模言語モデル-1

 

ヘルプの使用

1.環境設定とインストール

1.1 基礎要件

  • Python環境
  • PyTorchフレームワーク
  • CUDAサポート(GPUアクセラレーション推奨)

1.2 インストールの手順

# プロジェクトリポジトリをクローンする
git clone https://github.com/VITA-MLLM/VITA.git
cd VITA
#の依存関係をインストールする
pip install -r requirements.txt

2.モデルの使用

2.1 訓練済みモデルをロードする:

from vita.model.builder import load_pretrained_model
from vita.conversation.import conv_templates
from vita.util.mm_utils import get_model_name_from_path
#ロードモデル
model_path = 'VITA/vita'
モデル名 = get_model_name_from_path(model_path)
tokeniser, model, image_processor, _ = load_pretrained_model(
model_path, _ = load_pretrained_model(
None, _ = load_pretrained_model(
モデル名, _ = load_pretrained_model(
model_type='mixtral-8x7b'、
device_map='auto'
)

2.2 オーディオ処理の構成:

# オーディオエンコーダを初期化する
audio_encoder = model.get_audio_encoder()
audio_encoder.to(dtype=torch.float16)
audio_processor = audio_encoder.audio_processor

3.リアルタイム・インタラクティブ機能

  • リアルタイムの音声入力と応答をサポート
  • 統合された画像認識と解析
  • 複数ラウンドの対話インタラクションをサポート
  • 完全な対話テンプレート・システムの提供

4.高度な機能の使用

4.1 マルチモーダル入力処理:

  • バッチ画像処理に対応
  • ビデオストリームのリアルタイム分析
  • オーディオ・ストリームの処理と合成

4.2 モデルのトレーニングと微調整:

  • 完全なトレーニングスクリプトを提供
  • 継続学習機能のサポート
  • カスタムデータセットのトレーニングサポート

5.評価とテスト

  • 主流のマルチモーダル評価ベンチマークをサポート
  • 統合VLMEvalKit評価ツール
  • 詳細なパフォーマンステスト指標を提供

6.注意事項

  • モデル推論にはGPUを推奨
  • 特に大規模なマルチモーダル入力を扱う場合は、メモリ管理に注意する。
  • プロジェクトのアップデートを定期的にチェックし、最新の機能や最適化を確認する。
無断転載を禁じます:チーフAIシェアリングサークル " VITA: リアルタイム視覚・音声インタラクションのためのオープンソース・マルチモーダル大規模言語モデル

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語