Detección visual de objetivos

Total 18 artículos
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Analizador de vídeo: analiza el contenido de los vídeos y genera descripciones detalladas.

Comprehensive Introduction Video Analyzer es una completa herramienta de análisis de vídeo que combina técnicas de visión por ordenador, transcripción de audio y procesamiento del lenguaje natural para generar descripciones detalladas del contenido del vídeo. La herramienta transcribe el contenido de audio extrayendo fotogramas clave del vídeo....
hace 6 meses
03.6K
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense: una herramienta gratuita de anotación de imágenes para aumentar la eficacia de los proyectos de visión por ordenador

Introducción general Make Sense es una herramienta gratuita de anotación de imágenes en línea diseñada para ayudar a los usuarios a preparar rápidamente conjuntos de datos para proyectos de visión por ordenador. No requiere ninguna instalación complicada, basta con abrir un navegador de acceso para utilizarlo, soporta múltiples sistemas operativos, y es ideal para pequeños proyectos de aprendizaje profundo. Los usuarios pueden...
hace 6 meses
02.4K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: un organismo inteligente para el análisis de radiografías de tórax mediante macromodelos multimodales

Introducción completa MedRAX es una inteligencia artificial de última generación diseñada para el análisis de radiografías de tórax (CXR). Integra herramientas de análisis CXR de última generación y grandes modelos de lenguaje multimodal para procesar dinámicamente consultas médicas complejas sin formación adicional.MedRAX, a través de su diseño modular...
hace 5 meses
02.3K
YOLOv12:实时图像和视频目标检测的开源工具

YOLOv12: una herramienta de código abierto para la detección de objetivos de imagen y vídeo en tiempo real

Introducción completa YOLOv12 es un proyecto de código abierto desarrollado por el usuario de GitHub sunsmarterjie , centrándose en la tecnología de detección de objetivos en tiempo real . El proyecto se basa en YOLO (You Only Look Once) serie de marcos , la introducción de nota ...
hace 6 meses
02.2K
RF-DETR:实时视觉对象检测开源模型

RF-DETR: un modelo de código abierto para la detección visual de objetos en tiempo real

Introducción general RF-DETR es un modelo de detección de objetos de código abierto desarrollado por el equipo Roboflow. Se basa en la arquitectura Transformer y su característica principal es la eficiencia en tiempo real. Por primera vez, el modelo alcanza más de 60 AP de tiempo real en el conjunto de datos COCO de Microsoft....
hace 5 meses
02.1K
Agentic Object Detection:无需标注和训练的视觉目标检测工具

Agentic Object Detection: una herramienta para la detección visual de objetos sin anotación ni entrenamiento

Introducción Agentic Object Detection es una herramienta avanzada de detección de objetivos de Landing AI. La herramienta realiza la detección mediante mensajes de texto, eliminando la necesidad de anotación de datos y entrenamiento de modelos, lo que simplifica enormemente el proceso de detección de objetivos tradicional...
hace 6 meses
02K
Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务

Twelve Labs: soluciones de IA multimodal para la comprensión de contenidos de vídeo, búsqueda de vídeos, generación, incrustación de servicios API

Introducción general Twelve Labs es una empresa de IA multimodal centrada en la comprensión de vídeo, dedicada a ayudar a los usuarios a comprender y procesar grandes cantidades de contenido de vídeo mediante tecnologías avanzadas de IA. Sus tecnologías principales incluyen la búsqueda, generación e incrustación de vídeo, que son capaces de extraer características clave del vídeo como acciones, objetos...
hace 6 meses
02K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: modelo multimodal de código abierto para la comprensión de vídeos y rondas múltiples de diálogo

Introducción CogVLM2 es un modelo multimodal de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), basado en la arquitectura Llama3-8B, y cuyo objetivo es proporcionar un rendimiento comparable o incluso mejor que GPT-4V. El modelo permite la comprensión de imágenes, el diálogo...
hace 6 meses
01.9K
Vision Agent:解决多种视觉目标检测任务的视觉智能体

Vision Agent: una inteligencia visual para resolver múltiples tareas de detección visual de objetivos

Introducción general Vision Agent es un proyecto de código abierto desarrollado por LandingAI (Team Enda Wu) y alojado en GitHub, diseñado para ayudar a los usuarios a generar rápidamente código para resolver tareas de visión por ordenador. Utiliza un marco de agentes avanzado y modelos multimodales...
hace 5 meses
01.8K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: herramienta de código abierto para segmentar automáticamente objetos arbitrarios en movimiento a partir de vídeo

Introducción general SegAnyMo es un proyecto de código abierto desarrollado por un equipo de investigadores de la UC Berkeley y la Universidad de Pekín, entre los que se encuentran miembros como Nan Huang. Esta herramienta se centra en el procesamiento de vídeo y puede identificar y segmentar automáticamente objetos arbitrarios en movimiento en un vídeo, como personas, animales o...
hace 4 meses
01.7K
Trackers:用于视频对象跟踪的开源工具库

Trackers: biblioteca de herramientas de código abierto para el seguimiento de objetos en vídeo

Introducción general Trackers es una biblioteca de herramientas Python de código abierto centrada en el seguimiento multiobjeto en vídeo. Integra varios algoritmos de seguimiento líderes, como SORT y DeepSORT, y permite a los usuarios combinar diferentes modelos de detección de objetos (como YOLO...
hace 3 meses
01.7K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni: un macromodelo multimodal para analizar emociones y acciones humanas en vídeo

Introducción general HumanOmni es un gran modelo multimodal de código abierto desarrollado por el equipo HumanMLLM y alojado en GitHub. Se centra en el análisis de vídeos humanos y puede procesar tanto la imagen como el sonido para ayudar a comprender las emociones, las acciones y el contenido de los diálogos. El proyecto utiliza 2...
hace 5 meses
01.5K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT: un gran modelo médico de apoyo al análisis de imágenes médicas y a las preguntas y respuestas diagnósticas

Introducción exhaustiva HealthGPT es un modelo avanzado de gran lenguaje visual médico que pretende lograr capacidades unificadas de comprensión y generación visual médica mediante la adaptación de conocimientos heterogéneos. El objetivo del proyecto es integrar la comprensión visual médica y las capacidades de generación en un marco autorregresivo unificado que mejore significativamente la...
hace 6 meses
01.5K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: una herramienta de código abierto para la detección de vídeo en tiempo real y la segmentación de objetos

YOLOE es un proyecto de código abierto desarrollado por el Grupo de Inteligencia Multimedia (THU-MIG) de la Escuela de Software de la Universidad de Tsinghua, cuyo nombre completo es "You Only Look Once Eye". Está basado en el framework PyTorch , pertenece a la serie de extensiones YOLO ...
hace 4 meses
01.4K