AIパーソナル・ラーニング
と実践的なガイダンス
ビーンバッグ・マースコード1
全15記事

Tags: ビジョン・ターゲット検出

YOLOE:实时视频检测和分割物体的开源工具-首席AI分享圈

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ(THU-MIG)によって開発されたオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズを拡張したもので、あらゆる物体をリアルタイムで検出し、セグメント化することができる。プロジェクトはGitHubでホストされている。

SegAnyMo:从视频中自动分割任意运动物体的开源工具-首席AI分享圈

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

一般的な紹介 SegAnyMoは、Nan Huangなどのメンバーを含む、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトである。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体(人、動物、乗り物など)を自動的に識別し、セグメント化することができる。このツールは、TAP...

RF-DETR:实时视觉对象检测开源模型-首席AI分享圈

RF-DETR:リアルタイム視覚物体検出のためのオープンソースモデル

包括的な紹介 RF-DETRはRoboflowチームによって開発されたオープンソースの物体検出モデルです。RF-DETRはTransformerアーキテクチャをベースとしており、そのコア機能はリアルタイム効率です。このモデルはMicrosoft COCOデータセットにおいて60以上のAPを初めてリアルタイムで検出し、RF100-VLベンチマークにおいても優れたパフォーマンスを達成しました。

HumanOmni:分析人类视频情感和动作的多模态大模型-首席AI分享圈

HumanOmni:人間のビデオ感情や行動を分析するためのマルチモーダル・マクロモデル

一般的な紹介 HumanOmniは、HumanMLLMチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルビッグモデルです。HumanOmniは人間の映像の分析に特化しており、画像と音声の両方を処理することで、感情、行動、対話の内容を理解するのに役立ちます。このプロジェクトでは、240万件の人間中心のビデオクリップと...

Vision Agent:解决多种视觉目标检测任务的视觉智能体-首席AI分享圈

視覚エージェント:複数の視覚的ターゲット検出タスクを解決する視覚インテリジェンス

概要 Vision Agentは、LandingAI(Enda Wuのチーム)によって開発され、GitHubでホストされているオープンソースプロジェクトである。高度なエージェントフレームワークとマルチモーダルモデルを使用し、簡単なプロンプトで効率的なコードを生成します。

MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率-首席AI分享圈

MakeSense:コンピュータビジョンプロジェクトの効率を高める、無料で使える画像注釈ツール

概要 Make Senseは、コンピュータ・ビジョン・プロジェクト用のデータセットを素早く準備できるように設計された、無料のオンライン画像注釈ツールです。複雑なインストールは不要で、ブラウザからアクセスするだけで使用でき、複数のオペレーティングシステムをサポートし、小規模なディープラーニングプロジェクトに最適です。ユーザはこのツールを使って...

YOLOv12:实时图像和视频目标检测的开源工具-首席AI分享圈

YOLOv12:リアルタイム画像・ビデオターゲット検出のためのオープンソースツール

総合的な紹介 YOLOv12は、GitHubユーザーのsunsmarterjieによって開発されたオープンソースプロジェクトで、リアルタイムのターゲット検出技術に焦点を当てています。このプロジェクトは、YOLO (You Only Look Once)シリーズのフレームワークに基づいており、従来の畳み込みニューラルネットワーク(CNN)のパフォーマンスを最適化するための注意メカニズムの導入だけでなく、検出...

VLM-R1:通过自然语言定位图像目标的视觉语言模型-首席AI分享圈

VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデル

包括的な紹介 VLM-R1は、Om AI Labによって開発され、GitHubでホストされているオープンソースの視覚言語モデリングプロジェクトです。このプロジェクトはDeepSeekのR1アプローチにQwen2.5-VLモデルを組み合わせたもので、強化学習(R1)と教師あり微調整(SFT)技術により、視覚におけるモデルのパフォーマンスを大幅に向上させています...

HealthGPT:支持医学图像分析与诊断问答的医疗大模型-首席AI分享圈

HealthGPT:医療画像解析と診断Q&Aを支援する医療ビッグモデル

包括的な紹介 HealthGPTは、異種知識適応による統一的な医療視覚理解と生成能力の達成を目指す、先進的な医療グランドビジュアル言語モデルである。このプロジェクトの目標は、医療画像処理を大幅に改善する統一的な自己回帰フレームワークに医療視覚理解と生成能力を統合することである...

MedRAX: 利用多模态大模型进行胸部X光片分析的智能体-首席AI分享圈

MedRAX:マルチモーダル・マクロモデルを用いた胸部X線写真解析のためのインテリジェントボディ

包括的な紹介 MedRAXは、胸部X線(CXR)解析用に設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダルな大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。MedRAXは、モジュール設計と強力な技術基盤により、...

Agentic Object Detection:无需标注和训练的视觉目标检测工具-首席AI分享圈

エージェントによる物体検出:注釈やトレーニングを必要としない視覚的物体検出ツール

包括的な紹介 Agentic Object Detectionは、Landing AIによる先進的なターゲット検出ツールです。このツールは、データのラベリングやモデルのトレーニングを必要とせず、テキストプロンプトを使用して検出することにより、従来のターゲット検出のプロセスを大幅に簡素化します。ユーザーは画像をアップロードし、検出プロンプトを入力するだけで、AIが...

CogVLM2:开源多模态模型,支持视频理解与多轮对话-首席AI分享圈

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

一般的な紹介 CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供するように設計されている。このモデルは画像理解、多ラウンド対話、ビデオ理解をサポートし、最大8Kの長さのコンテンツを扱うことができる。

Gaze-LLE: 视频中人物注视目标预测工具-首席AI分享圈

Gaze-LLE:映像中の人物注視のターゲット予測ツール

Synthesis Gaze-LLEは、大規模学習エンコーダーに基づいた視線ターゲット予測ツールです。Fiona Ryan、Ajay Bati、Sangmin Lee、Daniel Bolya、Judy Hoffman、James M. Rehgによって開発され、DINOv2のような事前に学習された視覚ベースモデルで実現することを目指している。

视频分析工具(Video Analyzer):分析视频内容并生成详细描述-首席AI分享圈

ビデオアナライザー:ビデオコンテンツを分析し、詳細な説明を生成します。

Comprehensive Introduction Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、ビデオ・コンテンツの詳細な説明を生成する総合的なビデオ解析ツールです。このツールは、動画から主要なフレームを抽出し、音声コンテンツを書き起こし、自然言語を生成します。

Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务-首席AI分享圈

Twelve Labs: 動画コンテンツの理解、動画検索、生成、APIサービスの組み込みのためのマルチモーダルAIソリューション

一般的な紹介 Twelve Labsは、動画理解に特化したマルチモーダルAI企業であり、高度なAI技術を通じて、ユーザーが大量の動画コンテンツを理解し、処理できるよう支援することに専念している。そのコア・テクノロジーには、アクション、オブジェクト、画面上のテキストなど、動画から主要な特徴を抽出できる動画検索、生成、埋め込みが含まれる。

ja日本語