Ming-lite-omni - Macromodèles multimodaux unifiés open source par l'équipe Ant 100

Dernières ressources sur l'IAMise à jour il y a 3 mois Cercle de partage de l'IA

9.5K 00

Qu'est-ce que Ming-lite-omni ?

Ming-Lite-Omni est un grand modèle multimodal unifié open source de l'équipe Bailing Big Model d'Ant Group, construit sur l'architecture très efficace du mélange d'experts (MoE). Ming-Lite-Omni prend en charge le traitement de données multimodales telles que le texte, l'image, l'audio et la vidéo, et possède de puissantes capacités de compréhension et de génération. Ming-Lite-Omni est optimisé pour l'efficacité informatique, supporte le traitement de données à grande échelle et l'interaction en temps réel, et est hautement évolutif. Ming-Lite-Omni est hautement évolutif et dispose d'un large éventail de scénarios d'application, offrant aux utilisateurs une solution intelligente intégrée avec de vastes perspectives d'application.

Principales caractéristiques de Ming-lite-omni

interaction multimodaleLes fonctions d'interaction sont multiples : elles prennent en charge les entrées et sorties multiples telles que le texte, l'image, l'audio, la vidéo, etc. pour une expérience d'interaction naturelle et fluide. Prise en charge du dialogue à plusieurs tours pour une interaction cohérente.
Compréhension et générationDes capacités de compréhension puissantes pour reconnaître et comprendre avec précision les données dans de multiples modalités. Des capacités de génération efficaces, permettant de générer des textes, des images, des contenus audio et vidéo de haute qualité.
Traitement efficaceLe système est basé sur l'architecture MoE. Il optimise l'efficacité des calculs et prend en charge le traitement de données à grande échelle et l'interaction en temps réel.

Adresse du site officiel de Ming-lite-omni

Bibliothèque de modèles HuggingFace: :https://huggingface.co/inclusionAI/Ming-Lite-Omni

Comment utiliser Ming-lite-omni

Préparation de l'environnement: :
- Installation de PythonPython : Python 3.8 ou supérieur est recommandé. Téléchargez-le et installez-le à partir du site web de Python.
- Installation des bibliothèques dépendantesInstaller les bibliothèques de dépendances nécessaires en exécutant la commande suivante dans un terminal ou sur la ligne de commande.

pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8  # 如果使用NVIDIA GPU

Télécharger les modèlesTélécharger le modèle Ming-Lite-Omni de Hugging Face.

git clone https://huggingface.co/inclusionAI/Ming-Lite-Omni
cd Ming-Lite-Omni

Modèles de chargementLe code suivant permet de charger le modèle et le processeur :

import os
import torch
from transformers import AutoProcessor, GenerationConfig
from modeling_bailingmm import BailingMMNativeForConditionalGeneration

# 设置模型路径
model_path = "Ming-Lite-Omni-Preview"

# 加载模型
model = BailingMMNativeForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True
).to("cuda")

# 加载处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

Préparation de la saisie des donnéesMing-Lite-Omni prend en charge une grande variété d'entrées modales, comme par exemple les entrées de texte et d'images.
- saisie de texte: :

messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
        ],
    },
]

- saisie d'images: :

messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "image", "image": os.path.join("assets", "flowers.jpg")},
            {"type": "text", "text": "What kind of flower is this?"}
        ],
    },
]

Prétraitement des donnéesLes données d'entrée sont prétraitées à l'aide d'un processeur :

text = processor.apply_chat_template(messages, add_generation_prompt=True)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    audios=audio_inputs,
    return_tensors="pt",
)
inputs = inputs.to(model.device)
for k in inputs.keys():
    if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
        inputs[k] = inputs[k].to(dtype=torch.bfloat16)

raisonnement modéliséLe modèle : Il invoque le modèle pour effectuer l'inférence et générer la sortie :

generation_config = GenerationConfig.from_dict({'no_repeat_ngram_size': 10})
generated_ids = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)

résultat de la sortieLe modèle génère les sorties appropriées pour poursuivre le traitement ou présenter les résultats selon les besoins.

Principaux avantages de Ming-Lite-Omni

fusion multimodaleLe système de gestion de l'information de la Commission européenne (CEI) permet de prendre en charge les entrées et sorties de texte, d'image, d'audio et de vidéo, pour une interaction multimodale complète.
Architecture efficaceLe routage dynamique, basé sur une architecture de mélange d'experts (MoE), optimise l'efficacité des calculs et réduit le gaspillage des ressources.
Harmonisation de la compréhension et de la productionL'architecture codeur-décodeur prend en charge la compréhension et la génération intégrées, offrant ainsi une expérience interactive cohérente.
Raisonnement optimiséLe mécanisme hybride d'attention linéaire réduit la complexité des calculs, permet une interaction en temps réel et convient aux scénarios de réponse rapide.
largement utiliséLes applications : applicables à divers domaines tels que le service client intelligent, la création de contenu, l'éducation, les soins de santé et les bureaux intelligents.
Source ouverte et soutien de la communautéModèle open source avec une communauté qui fournit une multitude de ressources aux développeurs pour leur permettre d'être rapidement opérationnels et d'innover.

Personnes pour lesquelles Ming-Lite-Omni est adapté

utilisateur professionnelLes entreprises de technologie et de création de contenu qui ont besoin de solutions multimodales efficaces.
Éducateurs et étudiantsLes enseignants et les étudiants qui souhaitent utiliser l'IA pour faciliter leur enseignement et leur apprentissage.
praticien de santéLes travailleurs de la santé qui ont besoin d'aide pour l'analyse des dossiers médicaux et l'interprétation des images médicales.
Utilisateurs de bureau intelligentsLes employés et la direction des organisations qui ont besoin de traiter des documents et d'améliorer l'efficacité de leur bureau.
consommateur moyenLes utilisateurs individuels qui utilisent des appareils intelligents et qui ont besoin de générer un contenu créatif.

Dernières ressources sur l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Parsio : Extraction automatique de données structurées clés à partir de PDF, d'e-mails et d'autres documents

Dernières ressources sur l'IA # Extraction et nettoyage de documents

Il y a 10 mois

010.6K

Pieces OS：逆向Pieces-OS GRPC转换为OpenAI接口（失效）

Pieces OS : Conversion inverse de Pieces-OS GRPC vers l'interface OpenAI (échoué)

Dernières ressources sur l'IA # AI Java Open Source Projecct # Free Large Model API

Il y a 10 mois

011.4K

Bai Chuan Big Model : Plate-forme intelligente de questions et réponses Bai Xiao Ying

Dernières ressources sur l'IA # AI Big Model Native Dialogue Tool

il y a 1 an

010.5K

Doctranslate.io：基于AI的全能翻译工具，支持文本、音频、图像和视频翻译

Doctranslate.io : Outil de traduction tout-en-un basé sur l'IA avec prise en charge de la traduction du texte, de l'audio, de l'image et de la vidéo

Dernières ressources sur l'IA # AI Traduction

Il y a 6 mois

011.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Ming-lite-omni - Macromodèles multimodaux unifiés open source par l'équipe Ant 100

Qu'est-ce que Ming-lite-omni ?

Principales caractéristiques de Ming-lite-omni

Adresse du site officiel de Ming-lite-omni

Comment utiliser Ming-lite-omni

Principaux avantages de Ming-Lite-Omni

Personnes pour lesquelles Ming-Lite-Omni est adapté

DeepSeek-R1-0528 - La dernière version du modèle d'IA open source R1 de DeepSeek

Drafting AI Community - Plateforme de conception de contenu créatif en IA, une variété de ressources de conception pour répondre aux différents besoins créatifs.

Articles connexes

Parsio : Extraction automatique de données structurées clés à partir de PDF, d'e-mails et d'autres documents

Pieces OS : Conversion inverse de Pieces-OS GRPC vers l'interface OpenAI (échoué)

Bai Chuan Big Model : Plate-forme intelligente de questions et réponses Bai Xiao Ying

Doctranslate.io : Outil de traduction tout-en-un basé sur l'IA avec prise en charge de la traduction du texte, de l'audio, de l'image et de la vidéo

Pas de commentaires

Dernières collections

Derniers articles

Ming-lite-omni - Macromodèles multimodaux unifiés open source par l'équipe Ant 100

Qu'est-ce que Ming-lite-omni ?

Principales caractéristiques de Ming-lite-omni

Adresse du site officiel de Ming-lite-omni

Comment utiliser Ming-lite-omni

Principaux avantages de Ming-Lite-Omni

Personnes pour lesquelles Ming-Lite-Omni est adapté

DeepSeek-R1-0528 - La dernière version du modèle d'IA open source R1 de DeepSeek

Drafting AI Community - Plateforme de conception de contenu créatif en IA, une variété de ressources de conception pour répondre aux différents besoins créatifs.

Articles connexes

Parsio : Extraction automatique de données structurées clés à partir de PDF, d'e-mails et d'autres documents

Pieces OS : Conversion inverse de Pieces-OS GRPC vers l'interface OpenAI (échoué)

Bai Chuan Big Model : Plate-forme intelligente de questions et réponses Bai Xiao Ying

Doctranslate.io : Outil de traduction tout-en-un basé sur l'IA avec prise en charge de la traduction du texte, de l'audio, de l'image et de la vidéo

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles