AIパーソナル・ラーニング
と実践的なガイダンス

Moondream:画像手がかり語のバッチバックプロパゲーションのためのオープンソースの軽量視覚言語モデル

はじめに

Moondreamは、ディープラーニングとコンピュータビジョン技術による画像記述を可能にするために設計された、オープンソースの軽量視覚言語モデルです。このモデルは様々なプラットフォーム上で効率的に動作し、特にエッジデバイスに適しています。高度な技術とトレーニングデータセットを使用することで、Moondreamは画像内の主要な詳細とシーン情報を正確にキャプチャして解析し、これらの視覚要素を首尾一貫した言語記述に変換することができます。

Moondreamは、強力な画像理解と非常に小さなモデルサイズを組み合わせた、効率的なオープンソースの視覚言語モデルです。Vikhyatによって開発されたこのプロジェクトは、様々なデバイスやプラットフォーム上で動作する、多用途でアクセス可能なソリューションを提供することを目指しています。Moondreamは、汎用的な画像理解タスクとリソースに制約のあるハードウェアデバイス向けに、それぞれMoondream 2BとMoondream 0.5Bという2つのモデルバリエーションを提供しています。Moondreamは、画像記述、視覚的質問、物体検出のいずれにおいても、優れた性能と柔軟な展開でユーザーのニーズに応えます。

Moondream:4GBのVRAMで、QWen2-VL 2Bに近いパフォーマンスで視覚言語モデルを実行。


Moondream:画像手がかり語のバッチバックプロパゲーションのためのオープンソースの軽量視覚言語モデル-1

オンライン経験:https://moondream.ai/playground

 

 

機能一覧

  • 画像の説明様々なアプリケーションシナリオに対応した画像のテキスト説明を自動生成します。
  • エッジデバイスのサポートリソースが限られたエッジデバイスで効率的に動作するように設計されています。
  • オープンソース開発者による二次開発やカスタマイズが容易な、完全なオープンソースコードベースを提供します。
  • 多言語サポート複数の言語による画像説明文の生成をサポートします。
  • オンライン推論Gradioインターフェースによるリアルタイム画像記述推論。
  • バッチファイル画像記述の一括生成に対応し、処理効率を向上。

 

ヘルプの使用

設置プロセス

  1. コードベースのクローン::
   git clone https://github.com/vikhyat/moondream.git
cd moondream
  1. 依存関係のインストール::
   pip install -r requirements.txt
  1. サンプル・スクリプトの実行::
   python sample.py --image  --prompt

グラディオ・インターフェースの使用

  1. Gradioインターフェイスの起動::
   python gradio_demo.py
  1. リアルタイム推論の使用::
   python webcam_gradio_demo.py

主な機能

  1. 画像記述生成::
    • 利用する sample.py 画像の説明文を生成するために、画像のパスと説明文のヒントを提供するスクリプト。
    • コマンドの例:
     python sample.py --image example.jpg --prompt "この画像を説明してください。"
    
  2. バッチファイル::
    • 利用する batch_generate_example.py 複数の画像パスと説明プロンプトを提供し、画像の説明を一括生成するスクリプト。
    • コマンドの例:
     python batch_generate_example.py --images image1.jpg image2.jpg --prompts "画像1を記述する。" "画像2を記述する。"
    
  3. オンライン推論::
    • アクティベート webcam_gradio_demo.py カメラを使ってリアルタイムで画像をキャプチャし、説明を生成するスクリプト。
    • コマンドの例: バッシュ
      python webcam_gradio_demo.py

詳細な手順

  1. 依存関係のインストール::
    • Python 3.8以上がインストールされていることを確認してください。
    • 利用する ピップ 必要な依存関係をインストールします:
     pip install transformers einops
    
  2. 積載モデル::
    • 利用する 変圧器 ライブラリには、事前に訓練されたモデルとスプリッタがロードされている:
     from transformers import AutoModelForCausalLM, AutoTokenizer
    from PIL import Image
    model_id = "vikhyatk/moondream2"
    model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
    tokeniser = AutoTokenizer.from_pretrained(model_id)
    image = Image.open('')
    enc_image = model.encode_image(image)
    print(model.answer_question(enc_image, "この画像を説明してください。", tokenizer))
    
  3. リアルタイム推論のセットアップ::
    • Gradioインターフェイスを起動し、カメラをライブ画像の説明に使用する: バッシュ
      python webcam_gradio_demo.py

 

Moondreamローカル・ワンクリック・インストーラー

チーフAIシェアリングサークルこのコンテンツは作者によって非表示にされています。コンテンツを表示するには認証コードを入力してください。
キャプチャ
このサイトWeChat公開番号に注意してください、返信"CAPTCHA、チャレンジ・レスポンス・テストの一種(コンピューティング)"、認証コードを取得します。WeChatで"チーフAIシェアリングサークル「またはルックスAI"またはWeChatは、QRコードの右側をスキャンすると、このサイトWeChatの公開番号に注意を払うことができます。

関連文書ダウンロードアドレス
このサイト上のすべてのリソースは、学習目的のためにのみ、ネットワークからのものです!
無断転載を禁じます:チーフAIシェアリングサークル " Moondream:画像手がかり語のバッチバックプロパゲーションのためのオープンソースの軽量視覚言語モデル

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語