시각적 표적 감지

총 18개 기사
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

동영상 분석기: 동영상 콘텐츠를 분석하고 자세한 설명을 생성합니다.

종합 소개 비디오 분석기는 컴퓨터 비전, 오디오 트랜스크립션 및 자연어 처리 기술을 결합하여 자세한 비디오 콘텐츠 설명을 생성하는 종합적인 비디오 분석 도구입니다. 이 도구는 비디오에서 주요 프레임을 추출하여 오디오 콘텐츠를 트랜스크립션합니다.
6개월 전
04.5K
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense: 컴퓨터 비전 프로젝트의 효율성을 높여주는 무료 이미지 주석 도구

일반 소개 Make Sense는 사용자가 컴퓨터 비전 프로젝트를 위한 데이터 세트를 빠르게 준비할 수 있도록 설계된 무료 온라인 이미지 주석 도구입니다. 복잡한 설치 없이 브라우저에 액세스하기만 하면 사용할 수 있고, 여러 운영 체제를 지원하며, 소규모 딥 러닝 프로젝트에 이상적입니다. 사용자는 다음을 수행할 수 있습니다.
6개월 전
03.2K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: 비디오 이해와 여러 차례의 대화를 지원하는 오픈 소스 멀티모달 모델

종합 소개 CogVLM2는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 멀티모달 모델로, Llama3-8B 아키텍처를 기반으로 하며 GPT-4V와 비슷하거나 더 나은 성능을 제공하는 것을 목표로 합니다. 이 모델은 이미지 이해, 다원 대화, 시각적 ...
6개월 전
03K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: 멀티모달 매크로 모델을 사용한 흉부 방사선 사진 분석용 지능형 바디

포괄적인 소개 MedRAX는 흉부 엑스레이(CXR) 분석을 위해 설계된 최첨단 AI 인텔리전스입니다. 최첨단 CXR 분석 도구와 멀티모달 대규모 언어 모델을 통합하여 추가 교육 없이 복잡한 의료 쿼리를 동적으로 처리하며, 모듈식 설계를 통해 MedRAX는 ...
5개월 전
02.9K
Vision Agent:解决多种视觉目标检测任务的视觉智能体

비전 에이전트: 다양한 시각적 표적 감지 작업을 해결하는 시각적 인텔리전스

일반 소개 비전 에이전트는 랜딩AI(팀 엔다 우)가 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트로, 사용자가 컴퓨터 비전 작업을 해결하기 위한 코드를 빠르게 생성할 수 있도록 설계되었습니다. 고급 에이전트 프레임워크와 멀티모달 모델을 사용합니다...
5개월 전
02.7K
Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务

Twelve Labs: 비디오 콘텐츠 이해, 비디오 검색, 생성, API 서비스 임베딩을 위한 멀티모달 AI 솔루션

회사 소개 Twelve Labs는 동영상 이해에 중점을 둔 멀티모달 AI 회사로, 고급 AI 기술을 통해 사용자가 대량의 동영상 콘텐츠를 이해하고 처리할 수 있도록 돕는 데 전념하고 있습니다. 핵심 기술로는 동영상 검색, 생성, 임베딩이 있으며, 동영상에서 동작, 사물 등 주요 특징을 추출할 수 있습니다.
6개월 전
02.7K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: 실시간 비디오 감지 및 객체 세분화를 위한 오픈 소스 도구

YOLOE는 칭화대학교 소프트웨어학부의 멀티미디어 인텔리전스 그룹(THU-MIG)에서 개발한 오픈 소스 프로젝트로, 정식 명칭은 "You Only Look Once Eye"입니다. YOLO 시리즈 확장에 속하는 PyTorch 프레임워크를 기반으로 합니다.
4개월 전
02.6K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: 동영상에서 임의의 움직이는 객체를 자동으로 분할하는 오픈 소스 도구

일반 소개 SegAnyMo는 UC 버클리와 북경대학교의 연구팀이 개발한 오픈 소스 프로젝트로, Nan Huang 등의 멤버가 참여하고 있습니다. 이 도구는 동영상 처리에 중점을 두고 있으며 동영상에서 사람, 동물 또는... 등 임의의 움직이는 물체를 자동으로 식별하고 세그먼트화할 수 있습니다.
4개월 전
02.4K
HumanOmni:分析人类视频情感和动作的多模态大模型

휴먼옴니: 사람의 비디오 감정과 행동을 분석하기 위한 멀티모달 매크로 모델

일반 소개 휴먼옴니는 HumanMLLM 팀에서 개발하여 깃허브에서 호스팅하는 오픈 소스 멀티모달 빅 모델입니다. 휴먼 비디오 분석에 중점을 두고 있으며, 영상과 소리를 모두 처리하여 감정, 행동 및 대화 내용을 이해하는 데 도움을 줍니다. 이 프로젝트에는 2...
5개월 전
02.3K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT: 의료 영상 분석 및 진단 Q&A를 지원하는 의료용 빅 모델

종합 소개 HealthGPT는 이기종 지식 적응을 통해 통합된 의료 시각적 이해 및 생성 기능을 달성하는 것을 목표로 하는 고급 의료 그랜드 비주얼 언어 모델입니다. 이 프로젝트의 목표는 의료 시각적 이해 및 생성 기능을 통합된 자동 회귀 프레임워크에 통합하여 의료 그래프를 크게 개선하는 것입니다.
6개월 전
02K