시각적 표적 감지

총 18개 기사

순서대로 정렬

동영상 분석기: 동영상 콘텐츠를 분석하고 자세한 설명을 생성합니다.

종합 소개 비디오 분석기는 컴퓨터 비전, 오디오 트랜스크립션 및 자연어 처리 기술을 결합하여 자세한 비디오 콘텐츠 설명을 생성하는 종합적인 비디오 분석 도구입니다. 이 도구는 비디오에서 주요 프레임을 추출하여 오디오 콘텐츠를 트랜스크립션합니다.

1 년 전

0148.3K

YOLOv12: 실시간 이미지 및 비디오 표적 감지를 위한 오픈 소스 도구

종합 소개 YOLOv12는 실시간 타겟 탐지 기술에 중점을 두고 GitHub 사용자 sunsmarterjie가 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 YOLO (You Only Look Once) 시리즈 프레임 워크를 기반으로하며 메모의 도입 ...

1 년 전

0140K

MakeSense: 컴퓨터 비전 프로젝트의 효율성을 높여주는 무료 이미지 주석 도구

일반 소개 Make Sense는 사용자가 컴퓨터 비전 프로젝트를 위한 데이터 세트를 빠르게 준비할 수 있도록 설계된 무료 온라인 이미지 주석 도구입니다. 복잡한 설치 없이 브라우저에 액세스하기만 하면 사용할 수 있고, 여러 운영 체제를 지원하며, 소규모 딥 러닝 프로젝트에 이상적입니다. 사용자는 다음을 수행할 수 있습니다.

1 년 전

0126.4K

RF-DETR: 실시간 시각적 객체 감지를 위한 오픈 소스 모델

종합 소개 RF-DETR은 Roboflow 팀에서 개발한 오픈 소스 객체 감지 모델입니다. 트랜스포머 아키텍처를 기반으로 하며 핵심 기능은 실시간 효율성입니다. 이 모델은 처음으로 Microsoft COCO 데이터 세트에서 60개 이상의 실시간 AP를 달성했습니다....

1 년 전

0117.6K

VLM-R1: 자연어를 통해 이미지 타깃을 찾기 위한 시각 언어 모델

종합 소개 VLM-R1은 Om AI Lab에서 개발하여 GitHub에서 호스팅하는 오픈 소스 시각 언어 모델링 프로젝트입니다. 이 프로젝트는 강화 학습을 통해 Qwen2.5-VL 모델과 결합된 DeepSeek의 R1 접근 방식을 기반으로 합니다.

1 년 전

098.8K

YOLOE: 실시간 비디오 감지 및 객체 세분화를 위한 오픈 소스 도구

YOLOE는 칭화대학교 소프트웨어학부의 멀티미디어 인텔리전스 그룹(THU-MIG)에서 개발한 오픈 소스 프로젝트로, 정식 명칭은 "You Only Look Once Eye"입니다. YOLO 시리즈 확장에 속하는 PyTorch 프레임워크를 기반으로 합니다.

1 년 전

096.9K

트래커: 동영상 개체 추적을 위한 오픈 소스 도구 라이브러리

일반 소개 트래커는 동영상에서 다중 객체 추적에 초점을 맞춘 오픈 소스 Python 도구 라이브러리입니다. 이 라이브러리는 SORT 및 DeepSORT와 같은 여러 주요 추적 알고리즘을 통합하고 사용자가 다양한 객체 감지 모델(예: YOLO...

1 년 전

095K

SegAnyMo: 동영상에서 임의의 움직이는 객체를 자동으로 분할하는 오픈 소스 도구

일반 소개 SegAnyMo는 UC 버클리와 북경대학교의 연구팀이 개발한 오픈 소스 프로젝트로, Nan Huang 등의 멤버가 참여하고 있습니다. 이 도구는 동영상 처리에 중점을 두고 있으며 동영상에서 사람, 동물 또는... 등 임의의 움직이는 물체를 자동으로 식별하고 세그먼트화할 수 있습니다.

1 년 전

088.8K

CogVLM2: 비디오 이해와 여러 차례의 대화를 지원하는 오픈 소스 멀티모달 모델

종합 소개 CogVLM2는 칭화대학교 데이터 마이닝 연구 그룹(THUDM)에서 개발한 오픈 소스 멀티모달 모델로, Llama3-8B 아키텍처를 기반으로 하며 GPT-4V와 비슷하거나 더 나은 성능을 제공하는 것을 목표로 합니다. 이 모델은 이미지 이해, 다원 대화, 시각적 ...

1 년 전

086.6K

MedRAX: 멀티모달 매크로 모델을 사용한 흉부 방사선 사진 분석용 지능형 바디

포괄적인 소개 MedRAX는 흉부 엑스레이(CXR) 분석을 위해 설계된 최첨단 AI 인텔리전스입니다. 최첨단 CXR 분석 도구와 멀티모달 대규모 언어 모델을 통합하여 추가 교육 없이 복잡한 의료 쿼리를 동적으로 처리하며, 모듈식 설계를 통해 MedRAX는 ...

1 년 전

086.1K

비전 에이전트: 다양한 시각적 표적 감지 작업을 해결하는 시각적 인텔리전스

일반 소개 비전 에이전트는 랜딩AI(팀 엔다 우)가 개발하고 GitHub에서 호스팅하는 오픈 소스 프로젝트로, 사용자가 컴퓨터 비전 작업을 해결하기 위한 코드를 빠르게 생성할 수 있도록 설계되었습니다. 고급 에이전트 프레임워크와 멀티모달 모델을 사용합니다...

1 년 전

085K

휴먼옴니: 사람의 비디오 감정과 행동을 분석하기 위한 멀티모달 매크로 모델

일반 소개 휴먼옴니는 HumanMLLM 팀에서 개발하여 깃허브에서 호스팅하는 오픈 소스 멀티모달 빅 모델입니다. 휴먼 비디오 분석에 중점을 두고 있으며, 영상과 소리를 모두 처리하여 감정, 행동 및 대화 내용을 이해하는 데 도움을 줍니다. 이 프로젝트에는 2...

1 년 전

083.9K

HealthGPT: 의료 영상 분석 및 진단 Q&A를 지원하는 의료용 빅 모델

종합 소개 HealthGPT는 이기종 지식 적응을 통해 통합된 의료 시각적 이해 및 생성 기능을 달성하는 것을 목표로 하는 고급 의료 그랜드 비주얼 언어 모델입니다. 이 프로젝트의 목표는 의료 시각적 이해 및 생성 기능을 통합된 자동 회귀 프레임워크에 통합하여 의료 그래프를 크게 개선하는 것입니다.

1 년 전

080.6K

무엇이든 설명하기: 이미지 및 동영상 영역에 대한 자세한 설명을 생성하는 오픈 소스 도구

일반 설명 Describe Anything은 NVIDIA와 여러 대학에서 개발한 오픈 소스 프로젝트로, 그 핵심은 DAM(Describe Anything Model)입니다. 이 도구는 사용자가 이미지나 동영상에 태그를 지정할 수 있습니다.

1 년 전

080.3K

Twelve Labs：理解视频内容的多模态AI解决方案，视频搜索、生成、嵌入API服务

Twelve Labs: 비디오 콘텐츠 이해, 비디오 검색, 생성, API 서비스 임베딩을 위한 멀티모달 AI 솔루션

회사 소개 Twelve Labs는 동영상 이해에 중점을 둔 멀티모달 AI 회사로, 고급 AI 기술을 통해 사용자가 대량의 동영상 콘텐츠를 이해하고 처리할 수 있도록 돕는 데 전념하고 있습니다. 핵심 기술로는 동영상 검색, 생성, 임베딩이 있으며, 동영상에서 동작, 사물 등 주요 특징을 추출할 수 있습니다.

최신 AI 리소스 # AI 오픈 서비스 # 시각적 표적 탐지

1 년 전

080K