UniPixel - ピクセルレベルのマルチモーダルモデル、香港理工大学、Tencent、CASなどがオープンソース化

35.4K 00

UniPixelとは？

UniPixelは、香港理工大学、テンセント、中国科学院、Vivoが共同で提案したピクセルレベルの視覚言語理解のための新しいマルチモーダルモデルです。オブジェクト参照とセグメンテーション機能を統合することで、画像セグメンテーション、ビデオセグメンテーション、領域理解、PixelQAタスクなど、さまざまなきめ細かなタスクをサポートします。UniPixelの中核となる強みは、強力なピクセルレベルの推論機能であり、言語記述に基づいて正確なピクセルレベルのマスクを生成し、言語と視覚の深い融合を可能にします。UniPixelは、ReVOS推論セグメンテーションベンチマークのようないくつかのベンチマークで優れた性能を発揮し、UniPixel-3Bは62.1J&Fの高スコアを達成し、既存のすべてのモデルを凌駕しています。UniPixelは、豊富なモデル重みとデータセットを提供し、柔軟なハードウェアセットアップと効率的な学習技術をサポートすることで、研究と応用を大幅に促進します。インテリジェントな監視、コンテンツ作成、教育、医療画像解析、自律走行などの分野で幅広い応用が期待される。

UniPixelの特徴

ピクセルレベルの視覚言語理解UniPixelは、言語記述とビジュアルコンテンツ間のピクセルレベルでのアライメントを可能にし、画像セグメンテーション、ビデオセグメンテーション、領域理解などの幅広いきめ細かなタスクをサポートします。
統一されたオブジェクトの指定とセグメンテーションオブジェクト参照とセグメンテーション機能をシームレスに統合し、言語記述から直接ピクセルレベルのマスクを生成することで、複雑な視覚的推論の基礎を提供します。
マルチタスク・サポートReVOS、MeViS、Ref-YouTube-VOSなど、いくつかのベンチマークで好成績を収め、オブジェクトの共同参照、セグメンテーション、クイズなどのPixelQAタスクもサポートしています。
柔軟な視覚的手がかり処理ビジュアルキュー入力を柔軟に処理し、マスクを生成し、推論を実行し、単一フレームおよび複数フレームのビデオ領域理解をサポートし、異なるシーン要件に適応することができます。
強い推論UniPixel-7Bモデルは、VideoRefer-Bench-Q Q&Aタスクのような複雑な視覚推論タスクにおいて、74.11 TP3Tの精度を達成し、いくつかの強力なベンチマークモデルを凌駕しています。
モデルの重みとデータセットの利用可能性UniPixel-3BとUniPixel-7Bの両バージョンのモデルウェイト、および23のフィンガープリンティング／セグメンテーション／QAデータセットの生画像／動画と前処理済みアノテーションを提供。
トレーニングと査定サポートコードベースは、複数のデータセットとベンチマークでのトレーニングと評価、柔軟なハードウェア設定、効率的なトレーニング技術、使いやすさと最適化のためのカスタムベースLLMとダイアログテンプレートをサポートしています。

UniPixelの主な利点

ピクセルレベルのアライメント機能UniPixelは、言語記述とビジュアルコンテンツのピクセルレベルでのアライメントを達成する能力が中核的な強みであり、きめ細かなビジュアル言語理解タスクに優れています。
統合フレームワーク設計オブジェクトの参照とセグメンテーションの機能を単一のモデルにシームレスに統合するこの統一されたフレームワーク設計は、効率を向上させるだけでなく、複雑な視覚的推論タスクのための強力な基盤を提供します。
マルチタスク適応能力画像セグメンテーション、ビデオセグメンテーション、領域理解、PixelQAタスクなど、幅広いタスクをサポートし、さまざまなアプリケーションシナリオへの幅広い適応性を示しています。
優れたパフォーマンス例えば、ReVOS推論セグメンテーションベンチマークでは、UniPixel-3Bは62.1J&Fという高いスコアを達成し、既存のすべてのモデルを凌駕しています。
柔軟な視覚的手がかり処理ビジュアルキュー入力を柔軟に処理し、マスクを生成し、推論を実行し、単一フレームおよび複数フレームのビデオ領域理解をサポートし、異なるシーン要件に適応することができます。
豊富なリソースサポートUniPixel-3BとUniPixel-7Bの両バージョンのモデルウェイト、および23のフィンガープリンティング／セグメンテーション／QAデータセットの生画像／動画と前処理済みアノテーションを提供。

UniPixelの公式サイトとは？

プロジェクトのウェブサイト:: https://polyu-chenlab.github.io/unipixel/
Githubリポジトリ:: https://github.com/PolyU-ChenLab/UniPixel
ハグ顔データ:: https://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M
arXivテクニカルペーパー:: https://arxiv.org/pdf/2509.18094
オンライン体験デモ:: https://huggingface.co/spaces/PolyU-ChenLab/UniPixel

UniPixelの対象者

人工知能研究者UniPixelは、視覚言語理解、画像セグメンテーション、ビデオ処理などの分野における最先端技術の探求に使用できる強力なマルチモーダルモデルを研究者に提供します。
コンピューター・ビジョン・エンジニアこのモデルは、画像や映像のセグメンテーション、ターゲット検出、領域理解を実際のプロジェクトで実装する必要があるエンジニアに適しており、開発効率とアプリケーションのパフォーマンスを向上させることができます。
機械学習開発者マルチモーダル・アプリケーションに取り組む開発者のために、UniPixelは豊富なモデル重みとデータセットを提供し、迅速なモデル構築と最適化を容易にします。
データサイエンティストUniPixelのマルチタスクサポートと強力な推論機能は、複雑なビジュアルデータを扱うデータサイエンティストにとって強力なツールとなる。
教育者教育分野では、UniPixelを使用して、生徒が視覚情報をよりよく理解し分析できるようにするインタラクティブな教育ツールを開発し、学習効果を高めることができます。
メディカル・イメージング・アナリスト医療画像処理において、UniPixelは病変部を正確にセグメンテーションし、医師の診断や治療計画を支援し、医療の効率と精度を向上させます。