Ming-lite-omni - Ant 100チームによる統一マルチモーダルマクロモデルのオープンソース化
ミンライトオムニとは?
Ming-Lite-Omniは、Ant GroupのBailing Big Modelチームによるオープンソースの統合マルチモーダルビッグモデルで、非常に効率的なMixture of Experts(MoE)アーキテクチャに基づいて構築されています。Ming-Lite-Omniは、テキスト、画像、音声、動画などのマルチモーダルデータの処理をサポートし、強力な理解・生成機能を備えています。Ming-Lite-Omniは計算効率のために最適化されており、大規模なデータ処理とリアルタイムのインタラクションをサポートし、高いスケーラビリティを備えています。Ming-Lite-Omniは高いスケーラビリティを持ち、幅広い応用シナリオを持つため、ユーザーに幅広い応用可能性を持つ統合インテリジェント・ソリューションを提供します。

明晰オムニの主な特徴
- マルチモーダルインタラクションテキスト、画像、音声、ビデオなど複数の入出力をサポートし、自然でスムーズなインタラクションを実現。首尾一貫した相互作用を提供するために多ラウンドのダイアログをサポートします。
- 理解と生成複数のモダリティのデータを正確に認識・理解する強力な理解機能。高品質なテキスト、画像、音声、動画コンテンツの生成をサポートする効率的な生成機能。
- 効率的な処理MoEアーキテクチャに基づき、計算効率を最適化し、大規模データ処理とリアルタイムインタラクションをサポートします。
明石オムニ公式サイトアドレス
- HuggingFaceモデルライブラリ::https://huggingface.co/inclusionAI/Ming-Lite-Omni
ミンライトオムニの使い方
- 環境準備::
- PythonのインストールPython 3.8以上を推奨。Pythonのウェブサイトからダウンロードしてインストールしてください。
- 依存ライブラリのインストールターミナルまたはコマンドラインで以下のコマンドを実行し、必要な依存ライブラリをインストールする。
pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8 # 如果使用NVIDIA GPU
- ダウンロードモデルハギング・フェイスからミングライト・オムニのモデルをダウンロードする。
git clone https://huggingface.co/inclusionAI/Ming-Lite-Omni
cd Ming-Lite-Omni
- 積載モデルモデルとプロセッサーをロードするには、以下のコードを使用します:
import os
import torch
from transformers import AutoProcessor, GenerationConfig
from modeling_bailingmm import BailingMMNativeForConditionalGeneration
# 设置模型路径
model_path = "Ming-Lite-Omni-Preview"
# 加载模型
model = BailingMMNativeForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True
).to("cuda")
# 加载处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
- データ入力の準備Ming-Lite-Omniは様々なモーダル入力をサポートしており、テキスト入力や画像入力を例に挙げることができます。
- テキスト入力::
messages = [
{
"role": "HUMAN",
"content": [
{"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
],
},
]
- 画像入力::
messages = [
{
"role": "HUMAN",
"content": [
{"type": "image", "image": os.path.join("assets", "flowers.jpg")},
{"type": "text", "text": "What kind of flower is this?"}
],
},
]
- データ前処理プロセッサによる入力データの前処理:
text = processor.apply_chat_template(messages, add_generation_prompt=True)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
audios=audio_inputs,
return_tensors="pt",
)
inputs = inputs.to(model.device)
for k in inputs.keys():
if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
inputs[k] = inputs[k].to(dtype=torch.bfloat16)
- モデル化された推論モデルを呼び出して推論を行い、出力を生成する:
generation_config = GenerationConfig.from_dict({'no_repeat_ngram_size': 10})
generated_ids = model.generate(
**inputs,
max_new_tokens=512,
use_cache=True,
eos_token_id=processor.gen_terminator,
generation_config=generation_config,
)
generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)
- 出力結果モデルは、必要に応じて結果をさらに処理したり提示したりするために、適切な出力を生成する。
ミングライト・オムニの主な利点
- マルチモーダルフュージョン完全なマルチモーダルインタラクションのために、テキスト、画像、音声、ビデオのマルチモーダル入出力をサポートします。
- 効率的なアーキテクチャMixture of Experts (MoE) アーキテクチャに基づき、動的ルーティングは計算効率を最適化し、無駄なリソースを削減します。
- 理解と生成の調和エンコーダーとデコーダーのアーキテクチャは、統合された理解と生成をサポートし、首尾一貫したインタラクティブな体験を提供します。
- 最適化された推論ハイブリッド線形注意メカニズムは、計算の複雑さを軽減し、リアルタイムの相互作用をサポートし、迅速な応答シナリオに適しています。
- 汎用インテリジェントなカスタマーサービス、コンテンツ制作、教育、ヘルスケア、スマートオフィスなど、さまざまな分野に適用可能。
- オープンソースとコミュニティ・サポートオープンソースモデルで、開発者が素早く立ち上がり、イノベーションを起こすための豊富なリソースを提供するコミュニティがある。
ミンライトオムニが向いている人
- ビジネスユーザー効率的なマルチモーダルソリューションを必要とするハイテク企業やコンテンツ制作企業。
- 教育者と学生AIを教育や学習に役立てたいと考えている教師や学生。
- 医療従事者医療記録分析および医療画像解釈の支援を必要とする医療従事者。
- スマートオフィスユーザー文書を処理し、オフィスの効率を改善する必要がある組織の従業員や管理職。
- 平均消費者スマートデバイスを使用し、クリエイティブなコンテンツを作成する必要のある個人ユーザー。
© 著作権表示
この記事は著作権で保護されており、許可なく複製することは禁じられている。
関連記事
コメントはありません