QVQ-Max - アリ・トンイ、視覚的推論モデルを発表

43.9K 00

QVQ-Maxとは

QVQ-MaxはQVQ-72B-Previewのアップグレードバージョンです。QVQ-72B-PreviewはAli Tongyiが開発した最先端の視覚推論モデルで、画像やビデオコンテンツを「読み取り」、情報と組み合わせて分析や問題解決を行うことができます。QVQ-Maxの主な機能には、画像解析、ビデオ解析、詳細な推論、アイデア生成などがあり、画像内の重要な要素を素早く特定し、ビデオのプロットを分析し、背景知識を組み合わせて推論することができます。QVQ-Maxは、複雑な数学的問題の解決に大きな可能性を示し、職場支援、学習相談、人生相談、創作など、さまざまな場面で優れたパフォーマンスを発揮する。

QVQ-Maxの主な特徴

画像解像度見落としがちな画像内のオブジェクト、テキストロゴ、小さなディテールを素早く識別し、重要な情報を正確に抽出し、画像の全体的なシーンとレイアウトを理解し、その後の分析と推論のための強固な基盤を提供します。
ビデオ分析映像コンテンツのフレームごとの分析に基づき、映像の場面転換、登場人物の動き、筋書きの展開を理解し、現在のフレームに基づいてその後の筋書きを推測することで、強力な動的視覚理解能力を発揮する。
推論視覚情報を認識し、豊富な背景知識と組み合わせて画像や映像コンテンツについて深く推論し、複雑な数学的問題や論理パズルなど、総合的な分析が必要な課題を解くことができる。
アイデア創出ユーザーの創作ニーズに応じて、イラストのデザイン、短いビデオスクリプトの作成、ロールプレイングコンテンツの生成などを行い、ユーザーの創作意欲を刺激し、芸術的な創作やコンテンツ制作を強力にサポートします。

QVQ-Maxのパフォーマンス

MathVisionベンチマークテストにおいて、QVQ-Maxは、最大思考長を調整し、精度を継続的に向上させることにより、強力な数学的問題解決能力を実証した。

QVQ-Max公式サイトアドレス

プロジェクトのウェブサイト::https://qwenlm.github.io/zh/blog/qvq-max-preview/

QVQ-Maxの使用方法

公式ウェブサイトを見るQwenChatのサイトへ公式サイト属
登録ログインオフィシャルホームページの "Register "ボタンをクリックし、登録とログインを完了します。
モデルを選択ログインに成功したら、「QVQ-Max」モデルを探してクリックし、視覚的推論機能にアクセスします。
コンテンツのアップロードQVQ-Maxのインターフェースで "Upload File"（ファイルのアップロード）ボタンをクリックし、分析する画像またはビデオファイルを選択します。
送信待ち画像または動画が正常にアップロードされ、問題の説明が明確で正しいことを確認した後、「送信」ボタンをクリックしてください。送信後、QVQ-Maxはリクエストの処理を開始します。
結果を見る処理完了後、QVQ-Maxは結果を生成し、ページに表示します。