Ming-lite-omni - Ant 100チームによる統一マルチモーダルマクロモデルのオープンソース化

36.3K 00

ミンライトオムニとは？

Ming-Lite-Omniは、Ant GroupのBailing Big Modelチームによるオープンソースの統合マルチモーダルビッグモデルで、非常に効率的なMixture of Experts（MoE）アーキテクチャに基づいて構築されています。Ming-Lite-Omniは、テキスト、画像、音声、動画などのマルチモーダルデータの処理をサポートし、強力な理解・生成機能を備えています。Ming-Lite-Omniは計算効率のために最適化されており、大規模なデータ処理とリアルタイムのインタラクションをサポートし、高いスケーラビリティを備えています。Ming-Lite-Omniは高いスケーラビリティを持ち、幅広い応用シナリオを持つため、ユーザーに幅広い応用可能性を持つ統合インテリジェント・ソリューションを提供します。

明晰オムニの主な特徴

マルチモーダルインタラクションテキスト、画像、音声、ビデオなど複数の入出力をサポートし、自然でスムーズなインタラクションを実現。首尾一貫した相互作用を提供するために多ラウンドのダイアログをサポートします。
理解と生成複数のモダリティのデータを正確に認識・理解する強力な理解機能。高品質なテキスト、画像、音声、動画コンテンツの生成をサポートする効率的な生成機能。
効率的な処理MoEアーキテクチャに基づき、計算効率を最適化し、大規模データ処理とリアルタイムインタラクションをサポートします。

明石オムニ公式サイトアドレス

HuggingFaceモデルライブラリ::https://huggingface.co/inclusionAI/Ming-Lite-Omni

ミンライトオムニの使い方

環境準備::
- PythonのインストールPython 3.8以上を推奨。Pythonのウェブサイトからダウンロードしてインストールしてください。
- 依存ライブラリのインストールターミナルまたはコマンドラインで以下のコマンドを実行し、必要な依存ライブラリをインストールする。

pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8  # 如果使用NVIDIA GPU

ダウンロードモデルハギング・フェイスからミングライト・オムニのモデルをダウンロードする。

git clone https://huggingface.co/inclusionAI/Ming-Lite-Omni
cd Ming-Lite-Omni

積載モデルモデルとプロセッサーをロードするには、以下のコードを使用します：

import os
import torch
from transformers import AutoProcessor, GenerationConfig
from modeling_bailingmm import BailingMMNativeForConditionalGeneration

# 设置模型路径
model_path = "Ming-Lite-Omni-Preview"

# 加载模型
model = BailingMMNativeForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True
).to("cuda")

# 加载处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

データ入力の準備Ming-Lite-Omniは様々なモーダル入力をサポートしており、テキスト入力や画像入力を例に挙げることができます。
- テキスト入力::

messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
        ],
    },
]

- 画像入力::

messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "image", "image": os.path.join("assets", "flowers.jpg")},
            {"type": "text", "text": "What kind of flower is this?"}
        ],
    },
]

データ前処理プロセッサによる入力データの前処理：

text = processor.apply_chat_template(messages, add_generation_prompt=True)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    audios=audio_inputs,
    return_tensors="pt",
)
inputs = inputs.to(model.device)
for k in inputs.keys():
    if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
        inputs[k] = inputs[k].to(dtype=torch.bfloat16)

モデル化された推論モデルを呼び出して推論を行い、出力を生成する：

generation_config = GenerationConfig.from_dict({'no_repeat_ngram_size': 10})
generated_ids = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)

出力結果モデルは、必要に応じて結果をさらに処理したり提示したりするために、適切な出力を生成する。

ミングライト・オムニの主な利点

マルチモーダルフュージョン完全なマルチモーダルインタラクションのために、テキスト、画像、音声、ビデオのマルチモーダル入出力をサポートします。
効率的なアーキテクチャMixture of Experts (MoE) アーキテクチャに基づき、動的ルーティングは計算効率を最適化し、無駄なリソースを削減します。
理解と生成の調和エンコーダーとデコーダーのアーキテクチャは、統合された理解と生成をサポートし、首尾一貫したインタラクティブな体験を提供します。
最適化された推論ハイブリッド線形注意メカニズムは、計算の複雑さを軽減し、リアルタイムの相互作用をサポートし、迅速な応答シナリオに適しています。
汎用インテリジェントなカスタマーサービス、コンテンツ制作、教育、ヘルスケア、スマートオフィスなど、さまざまな分野に適用可能。
オープンソースとコミュニティ・サポートオープンソースモデルで、開発者が素早く立ち上がり、イノベーションを起こすための豊富なリソースを提供するコミュニティがある。