Moondream: 이미지 단서 단어의 일괄 역전파를 위한 오픈 소스 경량 시각 언어 모델

최신 AI 리소스8개월 전 업데이트 AI 공유 서클
11.2K 00

일반 소개

Moondream은 딥러닝과 컴퓨터 비전 기술을 통해 이미지를 설명할 수 있도록 설계된 오픈 소스 경량 시각 언어 모델입니다. 이 모델은 다양한 플랫폼에서 효율적으로 실행되며 특히 엣지 디바이스에 적합하며, 고급 기술과 학습 데이터 세트를 사용하여 이미지의 주요 세부 사항과 장면 정보를 정확하게 캡처 및 구문 분석하고 이러한 시각적 요소를 일관된 언어적 설명으로 변환할 수 있습니다.

문드림은 강력한 이미지 이해력과 매우 작은 모델 크기를 결합한 효율적인 오픈 소스 시각 언어 모델입니다. Vikhyat가 개발한 이 프로젝트는 다양한 장치와 플랫폼에서 실행되는 다목적 접근성 솔루션을 제공하는 것을 목표로 하며, Moondream은 각각 범용 이미지 이해 작업과 리소스 제약이 있는 하드웨어 장치를 위한 Moondream 2B와 Moondream 0.5B의 두 가지 모델 변형을 제공합니다. 이미지 설명, 시각적 질문, 물체 감지 등 Moondream은 뛰어난 성능과 유연한 배포로 사용자의 요구를 충족합니다.

Moondream: QWen2-VL 2B에 가까운 성능으로 시각 언어 모델을 실행하는 4GB VRAM

Moondream:批量反推图像提示词的开源轻量级视觉语言模型

온라인 체험: https://moondream.ai/playground

 

Moondream:批量反推图像提示词的开源轻量级视觉语言模型

 

기능 목록

  • 이미지 설명다양한 애플리케이션 시나리오에 맞게 이미지에 대한 텍스트 설명을 자동으로 생성합니다.
  • 엣지 디바이스 지원리소스가 제한된 엣지 디바이스에서 효율적으로 작동하도록 설계되었습니다.
  • 오픈 소스개발자가 쉽게 2차 개발 및 커스터마이징할 수 있도록 완전한 오픈 소스 코드 기반을 제공합니다.
  • 다국어 지원여러 언어로 된 이미지 설명 생성을 지원합니다.
  • 온라인 추론Gradio 인터페이스를 통한 실시간 이미지 설명 추론.
  • 배치 파일처리 효율을 높이기 위해 일괄 이미지 설명 생성을 지원합니다.

 

도움말 사용

설치 프로세스

  1. 코드 베이스 복제::
   git clone https://github.com/vikhyat/moondream.git
cd moondream
  1. 종속성 설치::
   pip install -r requirements.txt
  1. 샘플 스크립트 실행::
   python sample.py --image <IMAGE_PATH> --prompt <PROMPT>

라디오 인터페이스 사용

  1. 라디오 인터페이스 시작하기::
   python gradio_demo.py
  1. 실시간 추론 사용::
   python webcam_gradio_demo.py

주요 기능

  1. 이미지 설명 생성::
    • 활용 sample.py 이미지 설명을 생성하기 위해 이미지 경로와 설명 힌트를 제공하는 스크립트입니다.
    • 명령 예시:
     python sample.py --image example.jpg --prompt "Describe this image."
    
  2. 배치 파일::
    • 활용 batch_generate_example.py 여러 이미지 경로와 설명 프롬프트를 제공하는 스크립트를 통해 이미지 설명을 일괄 생성할 수 있습니다.
    • 명령 예시:
     python batch_generate_example.py --images image1.jpg image2.jpg --prompts "Describe image 1." "Describe image 2."
    
  3. 온라인 추론::
    • 활성화(플랜) webcam_gradio_demo.py 카메라를 사용하여 실시간으로 이미지를 캡처하고 설명을 생성하는 스크립트입니다.
    • 명령 예시: bash
      python webcam_gradio_demo.py

세부 단계

  1. 종속성 설치::
    • Python 3.8 이상이 설치되어 있는지 확인하세요.
    • 활용 pip 필요한 종속성을 설치합니다:
     pip install transformers einops
    
  2. 모델 로드::
    • 활용 transformers 라이브러리에는 사전 학습된 모델과 스플리터가 로드되어 있습니다:
     from transformers import AutoModelForCausalLM, AutoTokenizer
    from PIL import Image
    model_id = "vikhyatk/moondream2"
    model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    image = Image.open('<IMAGE_PATH>')
    enc_image = model.encode_image(image)
    print(model.answer_question(enc_image, "Describe this image.", tokenizer))
    
  3. 실시간 추론 설정::
    • 실시간 이미지 설명에 카메라를 사용하려면 Gradio 인터페이스를 실행합니다: bash
      python webcam_gradio_demo.py

 

문드림 로컬 원클릭 설치 프로그램

Quark 다운로드

썬더볼트 다운로드

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...