Визуальное обнаружение целей

Всего 18 статей
расставлять по порядку
YOLOv12:实时图像和视频目标检测的开源工具

YOLOv12: инструмент с открытым исходным кодом для обнаружения целей на изображениях и видео в реальном времени

Всеобъемлющее введение YOLOv12 - это проект с открытым исходным кодом, разработанный пользователем GitHub sunsmarterjie, ориентированный на технологию обнаружения целей в реальном времени. Проект основан на серии фреймворков YOLO (You Only Look Once), внедрение нот ...
6 месяцев назад
011.8K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Видеоанализатор: анализирует видеоконтент и создает подробные описания

Comprehensive Introduction Video Analyzer - это инструмент комплексного анализа видео, сочетающий компьютерное зрение, транскрипцию аудио и методы обработки естественного языка для создания подробных описаний видеоконтента. Инструмент расшифровывает аудиоконтент, извлекая ключевые кадры из видео...
7 месяцев назад
011.6K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: мультимодальная модель с открытым исходным кодом для поддержки понимания видео и многораундового диалога

Введение CogVLM2 - это мультимодальная модель с открытым исходным кодом, разработанная исследовательской группой Tsinghua University Data Mining Research Group (THUDM), основанная на архитектуре Llama3-8B и стремящаяся обеспечить производительность, сравнимую или даже превосходящую GPT-4V. Модель поддерживает понимание изображений, многораундовый диалог и визуальный...
7 месяцев назад
010.4K
VLM-R1:通过自然语言定位图像目标的视觉语言模型

VLM-R1: модель визуального языка для определения местоположения целей изображения с помощью естественного языка

Всеобъемлющее введение VLM-R1 - это проект визуального моделирования языка с открытым исходным кодом, разработанный Om AI Lab и размещенный на GitHub. Проект основан на подходе R1 компании DeepSeek, объединенном с моделью Qwen2.5-VL, с помощью обучения с подкреплением...
6 месяцев назад
010.3K
RF-DETR:实时视觉对象检测开源模型

RF-DETR: модель с открытым исходным кодом для обнаружения визуальных объектов в реальном времени

Всеобъемлющее введение RF-DETR - это модель обнаружения объектов с открытым исходным кодом, разработанная командой Roboflow. Она основана на архитектуре Transformer, и ее основной особенностью является эффективность в реальном времени. Впервые модель достигла более 60 точек доступа в реальном времени на наборе данных Microsoft COCO...
5 месяцев назад
09.6K
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense: бесплатный инструмент для аннотирования изображений, повышающий эффективность проектов по компьютерному зрению

Общее представление Make Sense - это бесплатный онлайн-инструмент для аннотирования изображений, предназначенный для быстрой подготовки наборов данных для проектов по компьютерному зрению. Он не требует сложной установки, для его использования достаточно открыть доступ в браузере, поддерживает множество операционных систем и идеально подходит для небольших проектов глубокого обучения. Пользователи могут...
6 месяцев назад
09.2K
Gaze-LLE: 视频中人物注视目标预测工具

Gaze-LLE: инструмент предсказания цели для взгляда человека в видео

Synthesis Gaze-LLE - это инструмент для предсказания цели взгляда, основанный на крупномасштабном обучаемом кодере. Он был разработан Фионой Райан, Аджаем Бати, Сангмином Ли, Даниэлем Болья, Джуди Хоффман и Дж...
5 месяцев назад
08.7K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: инструмент с открытым исходным кодом для обнаружения и сегментации объектов на видео в реальном времени

YOLOE - проект с открытым исходным кодом, разработанный Группой мультимедийного интеллекта (THU-MIG) Школы программного обеспечения Университета Цинхуа, полное название - "You Only Look Once Eye". Он основан на фреймворке PyTorch, который относится к серии расширений YOLO ...
5 месяцев назад
08.7K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: интеллектуальный орган для анализа рентгенограмм грудной клетки с использованием мультимодальных макромоделей

Всеобъемлющее введение MedRAX - это современный искусственный интеллект, предназначенный для анализа рентгенограмм грудной клетки (РГК). Он объединяет современные инструменты для анализа рентгенограмм и мультимодальные большие языковые модели для динамической обработки сложных медицинских запросов без дополнительного обучения.MedRAX, благодаря своей модульной конструкции...
6 месяцев назад
08.6K
Describe Anything:为图像和视频区域生成详细描述的开源工具

Describe Anything: инструмент с открытым исходным кодом для создания подробных описаний изображений и видео.

Общее представление Describe Anything - это проект с открытым исходным кодом, разработанный NVIDIA и несколькими университетами, в основе которого лежит модель Describe Anything Model (DAM). Этот инструмент может помечать изображения или видео, основываясь на...
4 месяца назад
08.5K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: инструмент с открытым исходным кодом для автоматического сегментирования произвольных движущихся объектов из видео.

Общее представление SegAnyMo - это проект с открытым исходным кодом, разработанный группой исследователей из Калифорнийского университета в Беркли и Пекинского университета, включая таких членов, как Нан Хуанг. Этот инструмент ориентирован на обработку видео и может автоматически идентифицировать и сегментировать произвольные движущиеся объекты на видео, такие как люди, животные или...
5 месяцев назад
08.2K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT: Большая медицинская модель для поддержки анализа медицинских изображений и диагностических вопросов и ответов

Всеобъемлющее введение HealthGPT - это усовершенствованная модель визуального языка медицинских графов, которая направлена на достижение унифицированного медицинского визуального понимания и генерации возможностей через адаптацию гетерогенных знаний. Цель проекта - интегрировать возможности медицинского визуального понимания и генерации в единый авторегрессионный фреймворк, который значительно улучшает медицинские граф...
6 месяцев назад
08.1K
Agentic Object Detection:无需标注和训练的视觉目标检测工具

Агентное обнаружение объектов: инструмент для визуального обнаружения объектов без аннотации и обучения

Всеобъемлющее введение Agentic Object Detection - это передовой инструмент обнаружения целей от Landing AI. Инструмент выполняет обнаружение с помощью текстовых подсказок, устраняя необходимость в аннотации данных и обучении модели, значительно упрощая процесс традиционного обнаружения целей...
7 месяцев назад
07.9K
Trackers:用于视频对象跟踪的开源工具库

Trackers: библиотека инструментов с открытым исходным кодом для отслеживания видеообъектов

Общее представление Trackers - это библиотека инструментов Python с открытым исходным кодом, ориентированная на отслеживание нескольких объектов в видео. Она объединяет несколько ведущих алгоритмов отслеживания, таких как SORT и DeepSORT, и позволяет пользователям комбинировать различные модели обнаружения объектов (например, YOLO...
4 месяца назад
07.8K
Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务

Twelve Labs: мультимодальные ИИ-решения для понимания видеоконтента, поиска видео, генерации, встраивания API-сервисов

Общее представление Twelve Labs - компания, занимающаяся мультимодальным искусственным интеллектом, ориентированным на понимание видео, призванная помочь пользователям понимать и обрабатывать большие объемы видеоконтента с помощью передовых технологий искусственного интеллекта. Основные технологии компании включают поиск, генерацию и встраивание видео, которые способны извлекать из видео ключевые характеристики, такие как действия, объекты...
7 месяцев назад
07.8K
Vision Agent:解决多种视觉目标检测任务的视觉智能体

Vision Agent: визуальный интеллект для решения множества задач по обнаружению визуальных целей

Общее представление Vision Agent - это проект с открытым исходным кодом, разработанный компанией LandingAI (команда Enda Wu) и размещенный на GitHub, призванный помочь пользователям быстро генерировать код для решения задач компьютерного зрения. В нем используется продвинутый агентский фреймворк и мультимодальные модели...
6 месяцев назад
07.5K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni: мультимодальная макромодель для анализа эмоций и действий человека на видео

Общее введение HumanOmni - это мультимодальная модель с открытым исходным кодом, разработанная командой HumanMLLM и размещенная на GitHub. Она ориентирована на анализ человеческих видео и может обрабатывать как изображение, так и звук, чтобы помочь понять эмоции, действия и содержание диалога. В проекте использовались 2...
5 месяцев назад
07.3K
Find My Kids:通过人脸识别和WhatsApp通知的儿童安全监控工具

Find My Kids: инструмент мониторинга безопасности детей с помощью распознавания лиц и уведомлений WhatsApp

Общее представление Find My Kids - это проект с открытым исходным кодом, размещенный на GitHub и созданный разработчиком Томером Кляйном. Он объединяет технологию распознавания лиц DeepFace с API WhatsApp Green...
4 месяца назад
07.3K