Detección visual de objetivos

Total 18 artículos
Trackers:用于视频对象跟踪的开源工具库

Trackers: biblioteca de herramientas de código abierto para el seguimiento de objetos en vídeo

Introducción general Trackers es una biblioteca de herramientas Python de código abierto centrada en el seguimiento multiobjeto en vídeo. Integra varios algoritmos de seguimiento líderes, como SORT y DeepSORT, y permite a los usuarios combinar diferentes modelos de detección de objetos (como YOLO...
hace 3 meses
01.2K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: una herramienta de código abierto para la detección de vídeo en tiempo real y la segmentación de objetos

YOLOE es un proyecto de código abierto desarrollado por el Grupo de Inteligencia Multimedia (THU-MIG) de la Escuela de Software de la Universidad de Tsinghua, cuyo nombre completo es "You Only Look Once Eye". Está basado en el framework PyTorch , pertenece a la serie de extensiones YOLO ...
hace 4 meses
01.1K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: herramienta de código abierto para segmentar automáticamente objetos arbitrarios en movimiento a partir de vídeo

Introducción general SegAnyMo es un proyecto de código abierto desarrollado por un equipo de investigadores de la UC Berkeley y la Universidad de Pekín, entre los que se encuentran miembros como Nan Huang. Esta herramienta se centra en el procesamiento de vídeo y puede identificar y segmentar automáticamente objetos arbitrarios en movimiento en un vídeo, como personas, animales o...
hace 4 meses
01K
RF-DETR:实时视觉对象检测开源模型

RF-DETR: un modelo de código abierto para la detección visual de objetos en tiempo real

Introducción general RF-DETR es un modelo de detección de objetos de código abierto desarrollado por el equipo Roboflow. Se basa en la arquitectura Transformer y su característica principal es la eficiencia en tiempo real. Por primera vez, el modelo alcanza más de 60 AP de tiempo real en el conjunto de datos COCO de Microsoft....
hace 5 meses
01.5K
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense: una herramienta gratuita de anotación de imágenes para aumentar la eficacia de los proyectos de visión por ordenador

Introducción general Make Sense es una herramienta gratuita de anotación de imágenes en línea diseñada para ayudar a los usuarios a preparar rápidamente conjuntos de datos para proyectos de visión por ordenador. No requiere ninguna instalación complicada, basta con abrir un navegador de acceso para utilizarlo, soporta múltiples sistemas operativos, y es ideal para pequeños proyectos de aprendizaje profundo. Los usuarios pueden...
hace 6 meses
01.7K
YOLOv12:实时图像和视频目标检测的开源工具

YOLOv12: una herramienta de código abierto para la detección de objetivos de imagen y vídeo en tiempo real

Introducción completa YOLOv12 es un proyecto de código abierto desarrollado por el usuario de GitHub sunsmarterjie , centrándose en la tecnología de detección de objetivos en tiempo real . El proyecto se basa en YOLO (You Only Look Once) serie de marcos , la introducción de nota ...
hace 6 meses
01.7K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT: un gran modelo médico de apoyo al análisis de imágenes médicas y a las preguntas y respuestas diagnósticas

综合介绍 HealthGPT 是一个先进的医疗大视觉语言模型,旨在通过异构知识适应实现统一的医学视觉理解和生成功能。该项目的目标是将医学视觉理解和生成能力集成到一个统一的自回归框架中,显著提升了医疗图...
hace 6 meses
01.2K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: un organismo inteligente para el análisis de radiografías de tórax mediante macromodelos multimodales

Introducción completa MedRAX es una inteligencia artificial de última generación diseñada para el análisis de radiografías de tórax (CXR). Integra herramientas de análisis CXR de última generación y grandes modelos de lenguaje multimodal para procesar dinámicamente consultas médicas complejas sin formación adicional.MedRAX, a través de su diseño modular...
hace 5 meses
01.9K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Analizador de vídeo: analiza el contenido de los vídeos y genera descripciones detalladas.

Comprehensive Introduction Video Analyzer es una completa herramienta de análisis de vídeo que combina técnicas de visión por ordenador, transcripción de audio y procesamiento del lenguaje natural para generar descripciones detalladas del contenido del vídeo. La herramienta transcribe el contenido de audio extrayendo fotogramas clave del vídeo....
hace 6 meses
03.2K
Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务

Twelve Labs: soluciones de IA multimodal para la comprensión de contenidos de vídeo, búsqueda de vídeos, generación, incrustación de servicios API

Introducción general Twelve Labs es una empresa de IA multimodal centrada en la comprensión de vídeo, dedicada a ayudar a los usuarios a comprender y procesar grandes cantidades de contenido de vídeo mediante tecnologías avanzadas de IA. Sus tecnologías principales incluyen la búsqueda, generación e incrustación de vídeo, que son capaces de extraer características clave del vídeo como acciones, objetos...
hace 6 meses
01.7K