Ming-lite-omni - унифицированные мультимодальные макромодели с открытым исходным кодом от команды Ant 100

Что такое Минг-лит-омни?

Ming-Lite-Omni - это унифицированная мультимодальная большая модель с открытым исходным кодом от команды Ant Group's Bailing Big Model, построенная на высокоэффективной архитектуре Mixture of Experts (MoE). Ming-Lite-Omni поддерживает обработку мультимодальных данных, таких как текст, изображение, аудио и видео, и обладает мощными возможностями понимания и генерации. Ming-Lite-Omni оптимизирован для повышения эффективности вычислений, поддерживает обработку больших объемов данных и взаимодействие в реальном времени, а также обладает высокой масштабируемостью. Ming-Lite-Omni обладает высокой масштабируемостью и широким спектром сценариев применения, предоставляя пользователям интегрированное интеллектуальное решение с широкими перспективами использования.

Ming-lite-omni - 蚂蚁百灵团队开源的统一多模态大模型

Основные характеристики Ming-lite-omni

  • мультимодальное взаимодействие: Поддерживает множество входов и выходов, таких как текст, изображение, аудио, видео и т.д. для естественного и плавного взаимодействия. Поддержка многораундового диалога для обеспечения согласованного взаимодействия.
  • Понимание и генерация: Мощные возможности понимания для точного распознавания и понимания данных в различных модальностях. Эффективные возможности генерации, позволяющие создавать высококачественный текст, изображения, аудио- и видеоконтент.
  • Эффективная обработкаОснованная на архитектуре MoE, она оптимизирует эффективность вычислений и поддерживает обработку больших объемов данных и взаимодействие в реальном времени.

Адрес официального сайта Ming-lite-omni

Как использовать Ming-lite-omni

  • Подготовка к защите окружающей среды::
    • Установка Python: Рекомендуется Python 3.8 или выше. Загрузите и установите его с сайта Python.
    • Установка зависимых библиотек: Установите необходимые библиотеки зависимостей, выполнив следующие команды в терминале или в командной строке.
pip install -r requirements.txt
pip install data/matcha_tts-0.0.5.1-cp38-cp38-linux_x86_64.whl
pip install diffusers==0.33.0
pip install nvidia-cublas-cu12==12.4.5.8  # 如果使用NVIDIA GPU
  • Скачать модели: Скачайте модель Ming-Lite-Omni с сайта Hugging Face.
git clone https://huggingface.co/inclusionAI/Ming-Lite-Omni
cd Ming-Lite-Omni
  • Модели для погрузки: Используйте следующий код для загрузки модели и процессора:
import os
import torch
from transformers import AutoProcessor, GenerationConfig
from modeling_bailingmm import BailingMMNativeForConditionalGeneration

# 设置模型路径
model_path = "Ming-Lite-Omni-Preview"

# 加载模型
model = BailingMMNativeForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True
).to("cuda")

# 加载处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
  • Подготовка к вводу данных: Подготовьте входные данные в соответствии с требованиями. Ming-Lite-Omni поддерживает различные виды модальных входов, например, текстовые и графические входы.
    • ввод текста::
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "text", "text": "请详细介绍鹦鹉的生活习性。"}
        ],
    },
]
    • ввод изображения::
messages = [
    {
        "role": "HUMAN",
        "content": [
            {"type": "image", "image": os.path.join("assets", "flowers.jpg")},
            {"type": "text", "text": "What kind of flower is this?"}
        ],
    },
]
  • Предварительная обработка данных: Предварительная обработка входных данных с помощью процессора:
text = processor.apply_chat_template(messages, add_generation_prompt=True)
image_inputs, video_inputs, audio_inputs = processor.process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    audios=audio_inputs,
    return_tensors="pt",
)
inputs = inputs.to(model.device)
for k in inputs.keys():
    if k == "pixel_values" or k == "pixel_values_videos" or k == "audio_feats":
        inputs[k] = inputs[k].to(dtype=torch.bfloat16)
  • моделируемое рассуждение: Вызов модели для выполнения выводов и генерации результатов:
generation_config = GenerationConfig.from_dict({'no_repeat_ngram_size': 10})
generated_ids = model.generate(
    **inputs,
    max_new_tokens=512,
    use_cache=True,
    eos_token_id=processor.gen_terminator,
    generation_config=generation_config,
)
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)[0]
print(output_text)
  • результат вывода: Модель генерирует соответствующие выходные данные для дальнейшей обработки или представления результатов, если это необходимо.

Основные преимущества Ming-Lite-Omni

  • мультимодальное слияние: Поддерживает текстовые, графические, аудио- и видеовходы и выходы для полноценного мультимодального взаимодействия.
  • Эффективная архитектура: Основанная на архитектуре Mixture of Experts (MoE), динамическая маршрутизация оптимизирует вычислительную эффективность и сокращает нерациональное использование ресурсов.
  • Гармонизация понимания и генерацииАрхитектура кодировщика-декодировщика поддерживает интегрированное понимание и генерацию, обеспечивая целостный интерактивный опыт.
  • Оптимизированное рассуждение: Гибридный механизм линейного внимания снижает вычислительную сложность, поддерживает взаимодействие в реальном времени и подходит для сценариев быстрого реагирования.
  • широко используемыйПрименяется в различных областях, таких как интеллектуальное обслуживание клиентов, создание контента, образование, здравоохранение и "умный офис".
  • Открытый исходный код и поддержка сообщества: Модель с открытым исходным кодом и сообществом, которое предоставляет разработчикам множество ресурсов для быстрого запуска и внедрения инноваций.

Люди, для которых подходит Минг-Лайт-Омни

  • бизнес-пользователь: Технологические компании и предприятия по созданию контента, которым нужны эффективные мультимодальные решения.
  • Преподаватели и студентыПреподаватели и студенты, которые хотят использовать ИИ для помощи в преподавании и обучении.
  • практикующий врач: Медицинские работники, которым требуется помощь в анализе медицинской документации и интерпретации медицинских изображений.
  • Пользователи умного офиса: Сотрудники и руководство организаций, которым необходимо обрабатывать документы и повышать эффективность работы офиса.
  • средний потребитель: Индивидуальные пользователи, использующие смарт-устройства и нуждающиеся в создании креативного контента.
© заявление об авторских правах

Похожие статьи

MaxAI:提升网页阅读与写作效率的浏览器扩展

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...