Moondream: легкая модель визуального языка с открытым исходным кодом для пакетного обратного распространения слов-подсказок к изображениям

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

53.9K 00

Общее введение

Moondream - это легкая модель визуального языка с открытым исходным кодом, предназначенная для описания изображений с помощью методов глубокого обучения и компьютерного зрения. Модель эффективно работает на различных платформах и особенно подходит для устройств, работающих на грани. Используя передовые методы и наборы обучающих данных, Moondream способен точно улавливать и анализировать ключевые детали и информацию о сцене на изображении, а также преобразовывать эти визуальные элементы в связное лингвистическое описание.

Moondream - это эффективная модель визуального языка с открытым исходным кодом, которая сочетает в себе мощное понимание изображений и очень маленький размер модели. Проект, разработанный Вихятом, нацелен на создание универсального и доступного решения, работающего на широком спектре устройств и платформ. Moondream предлагает два варианта моделей, Moondream 2B и Moondream 0.5B, для задач понимания изображений общего назначения и аппаратных устройств с ограниченными ресурсами соответственно. Будь то описание изображений, визуальный опрос или обнаружение объектов, Moondream удовлетворяет потребности пользователей благодаря отличной производительности и гибкости развертывания.

Moondream: 4 ГБ VRAM для работы с визуальными языковыми моделями с производительностью, близкой к QWen2-VL 2B.

Опыт работы в Интернете: https://moondream.ai/playground

Список функций

Описание изображения: Автоматическое создание текстовых описаний изображений для широкого спектра сценариев применения.
Поддержка краевых устройствРазработан для эффективной работы на устройствах с ограниченными ресурсами.
открытый исходный код: Предоставляет полную базу кода с открытым исходным кодом для легкой вторичной разработки и кастомизации разработчиками.
Поддержка нескольких языков: Поддерживает создание описаний изображений на нескольких языках.
он-лайн рассуждения: Вывод описания изображения в реальном времени через интерфейс Gradio.
пакетный файл: Поддержка пакетного создания описаний изображений для повышения эффективности обработки.

Использование помощи

Процесс установки

Клонирование кодовой базы::

   git clone https://github.com/vikhyat/moondream.git
cd moondream

Установка зависимостей::

   pip install -r requirements.txt

Запустите пример сценария::

   python sample.py --image <IMAGE_PATH> --prompt <PROMPT>

Использование интерфейса Gradio

Запуск интерфейса Gradio::

   python gradio_demo.py

Использование рассуждений в реальном времени::

   python webcam_gradio_demo.py

Основные функции

Генерация описания изображения::
- пользоваться sample.py Скрипты, предоставляющие пути к изображениям и подсказки для создания описаний изображений.
- Пример команды:
```
 python sample.py --image example.jpg --prompt "Describe this image."
```
пакетный файл::
- пользоваться batch_generate_example.py Скрипты, предоставляющие несколько путей к изображениям и подсказки к описанию для пакетной генерации описаний изображений.
- Пример команды:
```
 python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
```
он-лайн рассуждения::
- активировать (план) webcam_gradio_demo.py Скрипты, использующие камеру для захвата изображений в реальном времени и создания описаний.
- Пример команды: bash python webcam_gradio_demo.py

Подробные шаги

Установка зависимостей::
- Убедитесь, что у вас установлен Python 3.8 и выше.
- пользоваться pip Установите необходимые зависимости:
```
 pip install transformers einops
```

Модели для погрузки::

пользоваться transformers В библиотеку загружены предварительно обученные модели и сплиттеры:

 from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image
model_id = "vikhyatk/moondream2"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))

Настройка рассуждений в реальном времени::
- Запустите интерфейс Gradio, чтобы использовать камеру для описания изображений в реальном времени: bash python webcam_gradio_demo.py

Moondream Local One-Click Installer

Quark Download

скачать громоотвод

Последние ресурсы по искусственному интеллекту # AI Средства создания изображений # AI Java Open Source Projecct

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

Последние ресурсы по искусственному интеллекту

2 месяца назад

021.8K

RoboCOIN - набор данных реальных двуруких роботов, открытый Wisdom Source в сотрудничестве с несколькими университетами.

Последние ресурсы по искусственному интеллекту

3 месяца назад

019.9K

Novelcrafter：专业小说创作工具，利用AI在创作各阶段提供构思和到成书

Novelcrafter: профессиональный инструмент для создания романов, использующий искусственный интеллект для обеспечения идей на всех этапах создания и до завершения книги

Последние ресурсы по искусственному интеллекту # AI Writing

1 год назад

082.9K

HumanOmni: мультимодальная макромодель для анализа эмоций и действий человека на видео

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

12 месяцев назад

050.1K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Moondream: легкая модель визуального языка с открытым исходным кодом для пакетного обратного распространения слов-подсказок к изображениям

Общее введение

Список функций

Использование помощи

Процесс установки

Использование интерфейса Gradio

Основные функции

Подробные шаги

Moondream Local One-Click Installer

AI Drive: обобщение содержимого PDF-файлов, общение с файлами, поддержка загрузки неограниченного количества папок (платно).

Dynamiq: система оркестровки интеллектуальных тел с поддержкой агентов RAG и LLM для упрощения разработки приложений ИИ

Похожие статьи

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

RoboCOIN - набор данных реальных двуруких роботов, открытый Wisdom Source в сотрудничестве с несколькими университетами.

HumanOmni: мультимодальная макромодель для анализа эмоций и действий человека на видео

Нет комментариев

Последние коллекции

Последние статьи

Moondream: легкая модель визуального языка с открытым исходным кодом для пакетного обратного распространения слов-подсказок к изображениям

Общее введение

Список функций

Использование помощи

Процесс установки

Использование интерфейса Gradio

Основные функции

Подробные шаги

Moondream Local One-Click Installer

AI Drive: обобщение содержимого PDF-файлов, общение с файлами, поддержка загрузки неограниченного количества папок (платно).

Dynamiq: система оркестровки интеллектуальных тел с поддержкой агентов RAG и LLM для упрощения разработки приложений ИИ

Похожие статьи

PromptFill - ИИ-инструмент с открытым исходным кодом для создания структурированных слов, предназначенный для рисования ИИ.

RoboCOIN - набор данных реальных двуруких роботов, открытый Wisdom Source в сотрудничестве с несколькими университетами.

HumanOmni: мультимодальная макромодель для анализа эмоций и действий человека на видео

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи