Moondream: легкая модель визуального языка с открытым исходным кодом для пакетного обратного распространения слов-подсказок к изображениям

Общее введение

Moondream - это легкая модель визуального языка с открытым исходным кодом, предназначенная для описания изображений с помощью методов глубокого обучения и компьютерного зрения. Модель эффективно работает на различных платформах и особенно подходит для устройств, работающих на грани. Используя передовые методы и наборы обучающих данных, Moondream способен точно улавливать и анализировать ключевые детали и информацию о сцене на изображении, а также преобразовывать эти визуальные элементы в связное лингвистическое описание.

Moondream - это эффективная модель визуального языка с открытым исходным кодом, которая сочетает в себе мощное понимание изображений и очень маленький размер модели. Проект, разработанный Вихятом, нацелен на создание универсального и доступного решения, работающего на широком спектре устройств и платформ. Moondream предлагает два варианта моделей, Moondream 2B и Moondream 0.5B, для задач понимания изображений общего назначения и аппаратных устройств с ограниченными ресурсами соответственно. Будь то описание изображений, визуальный опрос или обнаружение объектов, Moondream удовлетворяет потребности пользователей благодаря отличной производительности и гибкости развертывания.

Moondream: 4 ГБ VRAM для работы с визуальными языковыми моделями с производительностью, близкой к QWen2-VL 2B.

Moondream:批量反推图像提示词的开源轻量级视觉语言模型

Опыт работы в Интернете: https://moondream.ai/playground

 

Moondream:批量反推图像提示词的开源轻量级视觉语言模型

 

Список функций

  • Описание изображения: Автоматическое создание текстовых описаний изображений для широкого спектра сценариев применения.
  • Поддержка краевых устройствРазработан для эффективной работы на устройствах с ограниченными ресурсами.
  • открытый исходный код: Предоставляет полную базу кода с открытым исходным кодом для легкой вторичной разработки и кастомизации разработчиками.
  • Поддержка нескольких языков: Поддерживает создание описаний изображений на нескольких языках.
  • он-лайн рассуждения: Вывод описания изображения в реальном времени через интерфейс Gradio.
  • пакетный файл: Поддержка пакетного создания описаний изображений для повышения эффективности обработки.

 

Использование помощи

Процесс установки

  1. Клонирование кодовой базы::
   git clone https://github.com/vikhyat/moondream.git
cd moondream
  1. Установка зависимостей::
   pip install -r requirements.txt
  1. Запустите пример сценария::
   python sample.py --image <IMAGE_PATH> --prompt <PROMPT>

Использование интерфейса Gradio

  1. Запуск интерфейса Gradio::
   python gradio_demo.py
  1. Использование рассуждений в реальном времени::
   python webcam_gradio_demo.py

Основные функции

  1. Генерация описания изображения::
    • пользоваться sample.py Скрипты, предоставляющие пути к изображениям и подсказки для создания описаний изображений.
    • Пример команды:
     python sample.py --image example.jpg --prompt "Describe this image."
    
  2. пакетный файл::
    • пользоваться batch_generate_example.py Скрипты, предоставляющие несколько путей к изображениям и подсказки к описанию для пакетной генерации описаний изображений.
    • Пример команды:
     python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
    
  3. он-лайн рассуждения::
    • активировать (план) webcam_gradio_demo.py Скрипты, использующие камеру для захвата изображений в реальном времени и создания описаний.
    • Пример команды: bash
      python webcam_gradio_demo.py

Подробные шаги

  1. Установка зависимостей::
    • Убедитесь, что у вас установлен Python 3.8 и выше.
    • пользоваться pip Установите необходимые зависимости:
     pip install transformers einops
    
  2. Модели для погрузки::
    • пользоваться transformers В библиотеку загружены предварительно обученные модели и сплиттеры:
     from transformers import AutoModelForCausalLM, AutoTokenizer
    from PIL import Image
    model_id = "vikhyatk/moondream2"
    model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    image = Image.open('<IMAGE_PATH>')
    enc_image = model.encode_image(image)
    print(model.answer_question(enc_image, "Describe this image.", tokenizer))
    
  3. Настройка рассуждений в реальном времени::
    • Запустите интерфейс Gradio, чтобы использовать камеру для описания изображений в реальном времени: bash
      python webcam_gradio_demo.py

 

Moondream Local One-Click Installer

Quark Download

скачать громоотвод

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...