Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデルオープンソース by Kunlun Wanwen

1.4K 00

はじめに

Skywork-R1Vは、SkyworkAI（Kunlun Wanwei）チームによって開発され、GitHubで公開されているオープンソースのマルチモーダル推論モデルである。画像とテキストを同時に処理し、多段階の論理推論を行うことができ、特に複雑な画像問題の分析に優れている。このモデルは2025年3月18日に正式に発表され、パラメータサイズは38億である。チェーン・オブ・ソート（Chain-of-Thought）をサポートしており、画像コンテンツを段階的に分解し、ユーザーが数学や科学などの問題を解決するのを助けることができる。Skywork-R1Vは、AI技術を押し進め、強力な推論ツールをより多くの人が自由に利用できるようにすることを目指している。強力なだけでなく、開発者が使用し、改良できるよう、詳細なドキュメントとコードを提供しています。

機能一覧

ビジュアル・シンキング・チェーン・リーズニング画像の内容を段階的に分析し、複雑な質問を分解して明確な答えを出す能力。
数学の問題解決画像から数学的な問題を認識し、高精度の回答を与える。
科学的画像解釈医療画像や科学画像を分析し、重要な情報を抽出します。
クロスモーダル理解テキストと画像を組み合わせて、より包括的な推論結果を提供します。
オープンソース・サポート完全なコードとモデルが提供され、ユーザーは自由に修正し、展開することができます。

ヘルプの使用

Skywork-R1Vはオープンソースのプロジェクトで、利用するにはGitHub経由でダウンロードし、ローカルで環境を設定する必要があります。ここでは、すぐに使い始めるための詳細なガイドを紹介します。

設置プロセス

環境を整える
- Python 3.8以上がコンピュータにインストールされていることを確認してください。これは python --version チェックする。
- コードをダウンロードするにはGitをインストールする必要がある。Windowsユーザーは公式ウェブサイトから、LinuxやMacユーザーはターミナルから次のように入力してダウンロードできる。 sudo apt install git もしかしたら brew install git インストール。
- パフォーマンスを向上させるためにGPU環境（NVIDIAグラフィックカードなど）を推奨し、CUDAとcuDNNをインストールする必要がある。
ダウンロードコード
- ターミナルまたはコマンドラインを開き、以下のコマンドを入力してリポジトリをクローンする：
```
git clone https://github.com/SkyworkAI/Skywork-R1V.git
```
- プロジェクトフォルダーに移動する：
```
cd Skywork-R1V
```
依存関係のインストール
- プロジェクトは依存関係ファイル <requirements.txt>.以下のコマンドを実行して、必要なライブラリをインストールする：
```
pip install -r requirements.txt
```
- 推論のスピードを上げる必要がある場合は、フラッシュ・アテンションをインストールしてください：
```
pip install flash-attn --no-build-isolation
```
ダウンロードモデル
- Skywork-R1VのモデルファイルはHugging Faceにあります。アクセス https://huggingface.co/Skywork/Skywork-R1V-38Bモデル・ファイルを手動でダウンロードするか、次のコマンドを使用する：
```
huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
```
- ダウンロードしたモデルファイルをプロジェクトディレクトリの model フォルダー
ランタイム環境の設定
- GPU が複数ある場合は、可視デバイスを設定します。例えば、2つのGPUを使用します：
```
export CUDA_VISIBLE_DEVICES="0,1"
```

主な機能の使い方

Skywork-R1Vの核となる機能は、画像とテキストによる推論です。以下に操作手順を示します。

機能1：視覚的思考連鎖推論

入場の準備ローカルで分析する画像（数学のトピックや科学的な図など）を保存します。 image1.jpg.
質問の準備コードで質問を指定する。例えば、「絵の中の数学の問題の答えは？.
走り推理:: 編集部 <inference_with_transformers.py> ファイルに、画像パスと質問を記入する：
```
image_paths = ["image1.jpg"]
question = "图片中的数学题答案是什么？"
```

コマンドを実行するターミナルで実行されます：

python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么？"

結果を見るプログラムは、段階的な推論プロセスと最終的な答えを出力します。

機能2：数学の問題解決

入力画像手書きや印刷されたタイトルなど、数式を含む画像をアップロードします。

実行コード視覚的思考連鎖と同様に、問題を「絵の中の数学の問題を解く」に設定して実行する：

python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"

リザルト・ショーケースモデルは数式を認識し、段階的に計算し、最後に答えを出す。

機能3：科学的画像解釈

写真をアップロードするX線や細胞顕微鏡の画像など、医療画像や科学的な図を作成する。
質問をする例えば、"写真に写っている細胞の構造は何ですか？"といった具体的な質問を入力する。.

ランニングプログラム::

python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么？"

出力分析このモデルは、画像の特徴を抽出し、問題と合わせて詳細な説明を与える。

取り扱い上の注意

画像フォーマットJPG、PNGなどの一般的なフォーマットに対応しており、鮮明度の高い画像を推奨します。
ハードウェア要件GPUを搭載していないコンピューターでも動作しますが、動作は遅くなります。最低16GBのRAMを推奨。
デバッグの問題エラーが発生した場合は <requirements.txt> GitHubのIssuesページでヘルプを確認してください。

以上の手順で、Skywork-R1Vを使って画像やテキストの処理を簡単に行うことができます。より高度な使い方については、公式ドキュメントを参照してください。 <Skywork_R1V.pdf>.

アプリケーションシナリオ

教材
生徒は、Skywork-R1Vを使って数学の宿題の絵問題を分析し、解答や解き方の手順を素早く得ることができ、ポイントを理解するのに役立ちます。
科学研究
研究者は実験の画像をアップロードすることで、モデルがデータや画像の内容を解釈し、分析時間を短縮することができる。
医療サポート
医師はX線画像や顕微鏡画像を入力して初期診断のアドバイスを受けることができ、作業効率が向上する。

品質保証

Skywork-R1Vはどの言語に対応していますか？
現在、主に中国語と英語をサポートしており、テキストの入力と出力は両方の言語に対応しています。
支払いは必要ですか？
Skywork-R1Vは完全にオープンソースで、コードもモデルも無料で入手できます。
GPUがなくても動作しますか？
可能ですが、推論がかなり遅くなります。CPUを使用する場合は、画像の解像度を下げることをお勧めします。

最新のAIリソース # AI Java オープンソースプロジェクト

この記事は著作権で保護されており、許可なく複製することは禁じられている。

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

4ヶ月前

01.3K

DeepSeek-VL2：高度なマルチモーダル理解のためのエキスパート視覚言語モデル

6ヶ月前

01.9K

Mureka：崑崙のAI生成オリジナル音楽ツール

最新のAIリソース # AIミュージック

5ヶ月前

02K

MagicTryOn（マジックトライオン） - ZJUやVivoなどが提供するビデオバーチャル試着フレームワーク

最新のAIリソース

2ヶ月前

0608

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデルオープンソース by Kunlun Wanwen

はじめに

機能一覧

ヘルプの使用

設置プロセス

主な機能の使い方

機能1：視覚的思考連鎖推論

機能2：数学の問題解決

機能3：科学的画像解釈

取り扱い上の注意

アプリケーションシナリオ

品質保証

JigsawStack: 小規模な専用AIモデルAPIを幅広く提供

サーバーレス高速デプロイ Grok3国内ミラーサイト

関連記事

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

DeepSeek-VL2：高度なマルチモーダル理解のためのエキスパート視覚言語モデル

Mureka：崑崙のAI生成オリジナル音楽ツール

MagicTryOn（マジックトライオン） - ZJUやVivoなどが提供するビデオバーチャル試着フレームワーク

コメントなし

最新コレクション

最新記事

Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデル オープンソース by Kunlun Wanwen

はじめに

機能一覧

ヘルプの使用

設置プロセス

主な機能の使い方

機能1：視覚的思考連鎖推論

機能2：数学の問題解決

機能3：科学的画像解釈

取り扱い上の注意

アプリケーションシナリオ

品質保証

JigsawStack: 小規模な専用AIモデルAPIを幅広く提供

サーバーレス高速デプロイ Grok3国内ミラーサイト

関連記事

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

DeepSeek-VL2：高度なマルチモーダル理解のためのエキスパート視覚言語モデル

Mureka：崑崙のAI生成オリジナル音楽ツール

MagicTryOn（マジックトライオン） - ZJUやVivoなどが提供するビデオバーチャル試着フレームワーク

コメントなし

厳選されたAIツール

最新コレクション

最新記事

Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデルオープンソース by Kunlun Wanwen