Ming-lite-omni - Macromodèles multimodaux unifiés open source par l'équipe Ant 100

Qu'est-ce que Ming-lite-omni ?

Ming-Lite-Omni est un grand modèle multimodal unifié open source de l'équipe Bailing Big Model d'Ant Group, construit sur l'architecture très efficace du mélange d'experts (MoE). Ming-Lite-Omni prend en charge le traitement de données multimodales telles que le texte, l'image, l'audio et la vidéo, et possède de puissantes capacités de compréhension et de génération. Ming-Lite-Omni est optimisé pour l'efficacité informatique, supporte le traitement de données à grande échelle et l'interaction en temps réel, et est hautement évolutif. Ming-Lite-Omni est hautement évolutif et dispose d'un large éventail de scénarios d'application, offrant aux utilisateurs une solution intelligente intégrée avec de vastes perspectives d'application.

Ming-lite-omni - 蚂蚁百灵团队开源的统一多模态大模型

Principales caractéristiques de Ming-lite-omni

  • interaction multimodaleLes fonctions d'interaction sont multiples : elles prennent en charge les entrées et sorties multiples telles que le texte, l'image, l'audio, la vidéo, etc. pour une expérience d'interaction naturelle et fluide. Prise en charge du dialogue à plusieurs tours pour une interaction cohérente.
  • Compréhension et générationDes capacités de compréhension puissantes pour reconnaître et comprendre avec précision les données dans de multiples modalités. Des capacités de génération efficaces, permettant de générer des textes, des images, des contenus audio et vidéo de haute qualité.
  • Traitement efficaceLe système est basé sur l'architecture MoE. Il optimise l'efficacité des calculs et prend en charge le traitement de données à grande échelle et l'interaction en temps réel.

Adresse du site officiel de Ming-lite-omni

Comment utiliser Ming-lite-omni

  • Préparation de l'environnement: :
    • Installation de PythonPython : Python 3.8 ou supérieur est recommandé. Téléchargez-le et installez-le à partir du site web de Python.
    • Installation des bibliothèques dépendantesInstaller les bibliothèques de dépendances nécessaires en exécutant la commande suivante dans un terminal ou sur la ligne de commande.
pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8  # 如果使用NVIDIA GPU
  • Télécharger les modèlesTélécharger le modèle Ming-Lite-Omni de Hugging Face.
git clone https://huggingface.co/inclusionAI/Ming-Lite-Omni
cd Ming-Lite-Omni
  • Modèles de chargementLe code suivant permet de charger le modèle et le processeur :
import os
import torch
from transformers import AutoProcessor, GenerationConfig
from modeling_bailingmm import BailingMMNativeForConditionalGeneration

# 设置模型路径
model_path = "Ming-Lite-Omni-Preview"

# 加载模型
model = BailingMMNativeForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True
).to("cuda")

# 加载处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
  • Préparation de la saisie des donnéesMing-Lite-Omni prend en charge une grande variété d'entrées modales, comme par exemple les entrées de texte et d'images.
    • saisie de texte: :
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
        ],
    },
]
    • saisie d'images: :
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "image", "image": os.path.join("assets", "flowers.jpg")},
            {"type": "text", "text": "What kind of flower is this?"}
        ],
    },
]
  • Prétraitement des donnéesLes données d'entrée sont prétraitées à l'aide d'un processeur :
text = processor.apply_chat_template(messages, add_generation_prompt=True)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    audios=audio_inputs,
    return_tensors="pt",
)
inputs = inputs.to(model.device)
for k in inputs.keys():
    if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
        inputs[k] = inputs[k].to(dtype=torch.bfloat16)
  • raisonnement modéliséLe modèle : Il invoque le modèle pour effectuer l'inférence et générer la sortie :
generation_config = GenerationConfig.from_dict({'no_repeat_ngram_size': 10})
generated_ids = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)
  • résultat de la sortieLe modèle génère les sorties appropriées pour poursuivre le traitement ou présenter les résultats selon les besoins.

Principaux avantages de Ming-Lite-Omni

  • fusion multimodaleLe système de gestion de l'information de la Commission européenne (CEI) permet de prendre en charge les entrées et sorties de texte, d'image, d'audio et de vidéo, pour une interaction multimodale complète.
  • Architecture efficaceLe routage dynamique, basé sur une architecture de mélange d'experts (MoE), optimise l'efficacité des calculs et réduit le gaspillage des ressources.
  • Harmonisation de la compréhension et de la productionL'architecture codeur-décodeur prend en charge la compréhension et la génération intégrées, offrant ainsi une expérience interactive cohérente.
  • Raisonnement optimiséLe mécanisme hybride d'attention linéaire réduit la complexité des calculs, permet une interaction en temps réel et convient aux scénarios de réponse rapide.
  • largement utiliséLes applications : applicables à divers domaines tels que le service client intelligent, la création de contenu, l'éducation, les soins de santé et les bureaux intelligents.
  • Source ouverte et soutien de la communautéModèle open source avec une communauté qui fournit une multitude de ressources aux développeurs pour leur permettre d'être rapidement opérationnels et d'innover.

Personnes pour lesquelles Ming-Lite-Omni est adapté

  • utilisateur professionnelLes entreprises de technologie et de création de contenu qui ont besoin de solutions multimodales efficaces.
  • Éducateurs et étudiantsLes enseignants et les étudiants qui souhaitent utiliser l'IA pour faciliter leur enseignement et leur apprentissage.
  • praticien de santéLes travailleurs de la santé qui ont besoin d'aide pour l'analyse des dossiers médicaux et l'interprétation des images médicales.
  • Utilisateurs de bureau intelligentsLes employés et la direction des organisations qui ont besoin de traiter des documents et d'améliorer l'efficacité de leur bureau.
  • consommateur moyenLes utilisateurs individuels qui utilisent des appareils intelligents et qui ont besoin de générer un contenu créatif.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...