はじめに
Skywork-R1Vは、SkyworkAI(Kunlun Wanwei)チームによって開発され、GitHubで公開されているオープンソースのマルチモーダル推論モデルである。画像とテキストを同時に処理し、多段階の論理推論を行うことができ、特に複雑な画像問題の分析に優れている。このモデルは2025年3月18日に正式に発表され、パラメータサイズは38億である。チェーン・オブ・ソート(Chain-of-Thought)をサポートしており、画像コンテンツを段階的に分解し、ユーザーが数学や科学などの問題を解決するのを助けることができる。Skywork-R1Vは、AI技術を押し進め、強力な推論ツールをより多くの人が自由に利用できるようにすることを目指している。強力なだけでなく、開発者が使用し、改良できるよう、詳細なドキュメントとコードを提供しています。
機能一覧
- ビジュアル・シンキング・チェーン・リーズニング画像の内容を段階的に分析し、複雑な質問を分解して明確な答えを出す能力。
- 数学の問題解決画像から数学的な問題を認識し、高精度の回答を与える。
- 科学的画像解釈医療画像や科学画像を分析し、重要な情報を抽出します。
- クロスモーダル理解テキストと画像を組み合わせて、より包括的な推論結果を提供します。
- オープンソース・サポート完全なコードとモデルが提供され、ユーザーは自由に修正し、展開することができます。
ヘルプの使用
Skywork-R1Vはオープンソースのプロジェクトで、利用するにはGitHub経由でダウンロードし、ローカルで環境を設定する必要があります。ここでは、すぐに使い始めるための詳細なガイドを紹介します。
設置プロセス
- 環境を整える
- Python 3.8以上がコンピュータにインストールされていることを確認してください。これは
python --version
チェックする。 - コードをダウンロードするにはGitをインストールする必要がある。Windowsユーザーは公式ウェブサイトから、LinuxやMacユーザーはターミナルから次のように入力してダウンロードできる。
sudo apt install git
もしかしたらbrew install git
インストール。 - パフォーマンスを向上させるためにGPU環境(NVIDIAグラフィックカードなど)を推奨し、CUDAとcuDNNをインストールする必要がある。
- Python 3.8以上がコンピュータにインストールされていることを確認してください。これは
- ダウンロードコード
- ターミナルまたはコマンドラインを開き、以下のコマンドを入力してリポジトリをクローンする:
git clone https://github.com/SkyworkAI/Skywork-R1V.git
- プロジェクトフォルダーに移動する:
cd Skywork-R1V
- ターミナルまたはコマンドラインを開き、以下のコマンドを入力してリポジトリをクローンする:
- 依存関係のインストール
- プロジェクトは依存関係ファイル
<requirements.txt>
.以下のコマンドを実行して、必要なライブラリをインストールする:pip install -r requirements.txt
- 推論のスピードを上げる必要がある場合は、フラッシュ・アテンションをインストールしてください:
pip install flash-attn --no-build-isolation
- プロジェクトは依存関係ファイル
- ダウンロードモデル
- Skywork-R1VのモデルファイルはHugging Faceにあります。アクセス
https://huggingface.co/Skywork/Skywork-R1V-38B
モデル・ファイルを手動でダウンロードするか、次のコマンドを使用する:huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
- ダウンロードしたモデルファイルをプロジェクトディレクトリの
model
フォルダー
- Skywork-R1VのモデルファイルはHugging Faceにあります。アクセス
- ランタイム環境の設定
- GPU が複数ある場合は、可視デバイスを設定します。例えば、2つのGPUを使用します:
export CUDA_VISIBLE_DEVICES="0,1"
- GPU が複数ある場合は、可視デバイスを設定します。例えば、2つのGPUを使用します:
主な機能の使い方
Skywork-R1Vの核となる機能は、画像とテキストによる推論です。以下に操作手順を示します。
機能1:視覚的思考連鎖推論
- 入場の準備ローカルで分析する画像(数学のトピックや科学的な図など)を保存します。
image1.jpg
. - 質問の準備コードで質問を指定する。例えば、「絵の中の数学の問題の答えは?.
- 走り推理:: 編集部
<inference_with_transformers.py>
ファイルに、画像パスと質問を記入する:image_paths = ["image1.jpg"] question = "图片中的数学题答案是什么?"
- コマンドを実行するターミナルで実行されます:
python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么?"
- 結果を見るプログラムは、段階的な推論プロセスと最終的な答えを出力します。
機能2:数学の問題解決
- 入力画像手書きや印刷されたタイトルなど、数式を含む画像をアップロードします。
- 実行コード視覚的思考連鎖と同様に、問題を「絵の中の数学の問題を解く」に設定して実行する:
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
- リザルト・ショーケースモデルは数式を認識し、段階的に計算し、最後に答えを出す。
機能3:科学的画像解釈
- 写真をアップロードするX線や細胞顕微鏡の画像など、医療画像や科学的な図を作成する。
- 質問をする例えば、"写真に写っている細胞の構造は何ですか?"といった具体的な質問を入力する。.
- ランニングプログラム::
python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么?"
- 出力分析このモデルは、画像の特徴を抽出し、問題と合わせて詳細な説明を与える。
取り扱い上の注意
- 画像フォーマットJPG、PNGなどの一般的なフォーマットに対応しており、鮮明度の高い画像を推奨します。
- ハードウェア要件GPUを搭載していないコンピューターでも動作しますが、動作は遅くなります。最低16GBのRAMを推奨。
- デバッグの問題エラーが発生した場合は
<requirements.txt>
GitHubのIssuesページでヘルプを確認してください。
以上の手順で、Skywork-R1Vを使って画像やテキストの処理を簡単に行うことができます。より高度な使い方については、公式ドキュメントを参照してください。 <Skywork_R1V.pdf>
.
アプリケーションシナリオ
- 教材
生徒は、Skywork-R1Vを使って数学の宿題の絵問題を分析し、解答や解き方の手順を素早く得ることができ、ポイントを理解するのに役立ちます。 - 科学研究
研究者は実験の画像をアップロードすることで、モデルがデータや画像の内容を解釈し、分析時間を短縮することができる。 - 医療サポート
医師はX線画像や顕微鏡画像を入力して初期診断のアドバイスを受けることができ、作業効率が向上する。
品質保証
- Skywork-R1Vはどの言語に対応していますか?
現在、主に中国語と英語をサポートしており、テキストの入力と出力は両方の言語に対応しています。 - 支払いは必要ですか?
Skywork-R1Vは完全にオープンソースで、コードもモデルも無料で入手できます。 - GPUがなくても動作しますか?
可能ですが、推論がかなり遅くなります。CPUを使用する場合は、画像の解像度を下げることをお勧めします。