Moondream: легкая модель визуального языка с открытым исходным кодом для пакетного обратного распространения слов-подсказок к изображениям
Общее введение
Moondream - это легкая модель визуального языка с открытым исходным кодом, предназначенная для описания изображений с помощью методов глубокого обучения и компьютерного зрения. Модель эффективно работает на различных платформах и особенно подходит для устройств, работающих на грани. Используя передовые методы и наборы обучающих данных, Moondream способен точно улавливать и анализировать ключевые детали и информацию о сцене на изображении, а также преобразовывать эти визуальные элементы в связное лингвистическое описание.
Moondream - это эффективная модель визуального языка с открытым исходным кодом, которая сочетает в себе мощное понимание изображений и очень маленький размер модели. Проект, разработанный Вихятом, нацелен на создание универсального и доступного решения, работающего на широком спектре устройств и платформ. Moondream предлагает два варианта моделей, Moondream 2B и Moondream 0.5B, для задач понимания изображений общего назначения и аппаратных устройств с ограниченными ресурсами соответственно. Будь то описание изображений, визуальный опрос или обнаружение объектов, Moondream удовлетворяет потребности пользователей благодаря отличной производительности и гибкости развертывания.
Moondream: 4 ГБ VRAM для работы с визуальными языковыми моделями с производительностью, близкой к QWen2-VL 2B.
Опыт работы в Интернете: https://moondream.ai/playground

Список функций
- Описание изображения: Автоматическое создание текстовых описаний изображений для широкого спектра сценариев применения.
- Поддержка краевых устройствРазработан для эффективной работы на устройствах с ограниченными ресурсами.
- открытый исходный код: Предоставляет полную базу кода с открытым исходным кодом для легкой вторичной разработки и кастомизации разработчиками.
- Поддержка нескольких языков: Поддерживает создание описаний изображений на нескольких языках.
- он-лайн рассуждения: Вывод описания изображения в реальном времени через интерфейс Gradio.
- пакетный файл: Поддержка пакетного создания описаний изображений для повышения эффективности обработки.
Использование помощи
Процесс установки
- Клонирование кодовой базы::
git clone https://github.com/vikhyat/moondream.git
cd moondream
- Установка зависимостей::
pip install -r requirements.txt
- Запустите пример сценария::
python sample.py --image <IMAGE_PATH> --prompt <PROMPT>
Использование интерфейса Gradio
- Запуск интерфейса Gradio::
python gradio_demo.py
- Использование рассуждений в реальном времени::
python webcam_gradio_demo.py
Основные функции
- Генерация описания изображения::
- пользоваться
sample.py
Скрипты, предоставляющие пути к изображениям и подсказки для создания описаний изображений. - Пример команды:
python sample.py --image example.jpg --prompt "Describe this image."
- пользоваться
- пакетный файл::
- пользоваться
batch_generate_example.py
Скрипты, предоставляющие несколько путей к изображениям и подсказки к описанию для пакетной генерации описаний изображений. - Пример команды:
python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
- пользоваться
- он-лайн рассуждения::
- активировать (план)
webcam_gradio_demo.py
Скрипты, использующие камеру для захвата изображений в реальном времени и создания описаний. - Пример команды:
bash
python webcam_gradio_demo.py
- активировать (план)
Подробные шаги
- Установка зависимостей::
- Убедитесь, что у вас установлен Python 3.8 и выше.
- пользоваться
pip
Установите необходимые зависимости:
pip install transformers einops
- Модели для погрузки::
- пользоваться
transformers
В библиотеку загружены предварительно обученные модели и сплиттеры:
from transformers import AutoModelForCausalLM, AutoTokenizer from PIL import Image model_id = "vikhyatk/moondream2" model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_id) image = Image.open('<IMAGE_PATH>') enc_image = model.encode_image(image) print(model.answer_question(enc_image, "Describe this image.", tokenizer))
- пользоваться
- Настройка рассуждений в реальном времени::
- Запустите интерфейс Gradio, чтобы использовать камеру для описания изображений в реальном времени:
bash
python webcam_gradio_demo.py
- Запустите интерфейс Gradio, чтобы использовать камеру для описания изображений в реальном времени:
Moondream Local One-Click Installer
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...