Ming-lite-omni - Ant 100 팀의 통합 멀티모달 매크로 모델 오픈 소스

37.2K 00

밍라이트옴니란 무엇인가요?

Ming-Lite-Omni는 매우 효율적인 전문가 혼합(MoE) 아키텍처를 기반으로 구축된 Ant Group의 Bailing Big Model 팀의 오픈 소스 통합 멀티모달 빅 모델로서, 텍스트, 이미지, 오디오, 비디오 등의 멀티모달 데이터 처리를 지원하며 강력한 이해 및 생성 기능을 갖추고 있습니다. 계산 효율성에 최적화되어 있고 대규모 데이터 처리와 실시간 상호 작용을 지원하며 확장성이 뛰어납니다. 확장성이 뛰어나고 다양한 애플리케이션 시나리오를 지원하여 사용자에게 폭넓은 활용 가능성을 지닌 통합 지능형 솔루션을 제공합니다.

밍 라이트 옴니의 주요 기능

멀티모달 상호 작용텍스트, 이미지, 오디오, 비디오 등 다양한 입력 및 출력을 지원하여 자연스럽고 원활한 상호작용 환경을 제공합니다. 일관된 상호 작용을 제공하기 위해 다원 대화를 지원합니다.
이해 및 생성다양한 양식의 데이터를 정확하게 인식하고 이해할 수 있는 강력한 이해 기능. 고품질 텍스트, 이미지, 오디오 및 비디오 콘텐츠의 생성을 지원하는 효율적인 생성 기능.
효율적인 처리MoE 아키텍처를 기반으로 계산 효율성을 최적화하고 대규모 데이터 처리 및 실시간 상호 작용을 지원합니다.

밍 라이트 옴니 공식 웹사이트 주소

허깅페이스 모델 라이브러리::https://huggingface.co/inclusionAI/Ming-Lite-Omni

밍 라이트 옴니 사용 방법

환경 준비::
- Python 설치Python 3.8 이상을 권장합니다. Python 웹사이트에서 다운로드하여 설치하세요.
- 종속 라이브러리 설치터미널 또는 명령줄에서 다음 명령을 실행하여 필요한 종속성 라이브러리를 설치합니다.

pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8  # 如果使用NVIDIA GPU

모델 다운로드: 허깅 페이스에서 Ming-Lite-Omni 모델을 다운로드하세요.

git clone https://huggingface.co/inclusionAI/Ming-Lite-Omni
cd Ming-Lite-Omni

모델 로드다음 코드를 사용하여 모델과 프로세서를 로드합니다:

import os
import torch
from transformers import AutoProcessor, GenerationConfig
from modeling_bailingmm import BailingMMNativeForConditionalGeneration

# 设置模型路径
model_path = "Ming-Lite-Omni-Preview"

# 加载模型
model = BailingMMNativeForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True
).to("cuda")

# 加载处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

데이터 입력 준비요구 사항에 따라 입력 데이터를 준비합니다.Ming-Lite-Omni는 다양한 모달 입력을 지원하며, 텍스트 및 이미지 입력을 예로 들 수 있습니다.
- 텍스트 입력::

messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
        ],
    },
]

- 이미지 입력::

messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "image", "image": os.path.join("assets", "flowers.jpg")},
            {"type": "text", "text": "What kind of flower is this?"}
        ],
    },
]

데이터 전처리프로세서를 사용하여 입력 데이터를 사전 처리합니다:

text = processor.apply_chat_template(messages, add_generation_prompt=True)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    audios=audio_inputs,
    return_tensors="pt",
)
inputs = inputs.to(model.device)
for k in inputs.keys():
    if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
        inputs[k] = inputs[k].to(dtype=torch.bfloat16)

모델링된 추론: 모델을 호출하여 추론을 수행하고 출력을 생성합니다:

generation_config = GenerationConfig.from_dict({'no_repeat_ngram_size': 10})
generated_ids = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)