Detecção visual de alvos

Total de 18 artigos
Trackers:用于视频对象跟踪的开源工具库

Trackers: biblioteca de ferramentas de código aberto para rastreamento de objetos de vídeo

Introdução geral Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, e permite que os usuários combinem diferentes modelos de detecção de objetos (como o YOLO...
3 meses atrás
01.5K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: uma ferramenta de código aberto para detecção de vídeo em tempo real e segmentação de objetos

O YOLOE é um projeto de código aberto desenvolvido pelo Grupo de Inteligência Multimídia (THU-MIG) da Escola de Software da Universidade de Tsinghua, com o nome completo "You Only Look Once Eye". Ele se baseia na estrutura PyTorch, pertence à série YOLO de extensões ...
4 meses atrás
01.2K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: uma ferramenta de código aberto para segmentar automaticamente objetos móveis arbitrários em vídeos

Introdução geral O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou...
4 meses atrás
01.2K
RF-DETR:实时视觉对象检测开源模型

RF-DETR: um modelo de código aberto para detecção de objetos visuais em tempo real

Introdução abrangente O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele se baseia na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. Pela primeira vez, o modelo atinge mais de 60 APs em tempo real no conjunto de dados Microsoft COCO...
5 meses atrás
01.8K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos

Introdução geral O HumanOmni é um grande modelo multimodal de código aberto desenvolvido pela equipe HumanMLLM e hospedado no GitHub. Ele se concentra na análise de vídeos humanos e pode processar imagens e sons para ajudar a entender emoções, ações e conteúdo de diálogos. O projeto usou 2...
5 meses atrás
01.1K
Vision Agent:解决多种视觉目标检测任务的视觉智能体

Vision Agent: uma inteligência visual para resolver várias tarefas de detecção visual de alvos

Introdução geral O Vision Agent é um projeto de código aberto desenvolvido pela LandingAI (Equipe Enda Wu) e hospedado no GitHub, projetado para ajudar os usuários a gerar código rapidamente para resolver tarefas de visão computacional. Ele usa uma estrutura de agente avançada e modelos multimodais...
5 meses atrás
01.3K
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense: uma ferramenta de anotação de imagens de uso gratuito para aumentar a eficiência do projeto de visão computacional

Introdução geral O Make Sense é uma ferramenta gratuita de anotação de imagens on-line criada para ajudar os usuários a preparar rapidamente conjuntos de dados para projetos de visão computacional. Ela não requer instalação complicada, basta abrir um acesso ao navegador para usá-la, é compatível com vários sistemas operacionais e é ideal para pequenos projetos de aprendizagem profunda. Os usuários podem...
6 meses atrás
01.9K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT: um grande modelo médico para apoiar a análise de imagens médicas e as perguntas e respostas de diagnóstico

Introdução abrangente O HealthGPT é um modelo avançado de linguagem visual médica que visa a obter recursos unificados de geração e compreensão visual médica por meio da adaptação de conhecimento heterogêneo. O objetivo do projeto é integrar os recursos de geração e compreensão visual médica em uma estrutura autorregressiva unificada que aprimora significativamente o gráfico médico...
6 meses atrás
01.2K
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX: um corpo inteligente para análise de radiografias de tórax usando macromodelos multimodais

Introdução abrangente O MedRAX é uma inteligência de IA de última geração projetada para análise de radiografia de tórax (CXR). Ele integra ferramentas de análise de CXR de última geração e modelos multimodais de linguagem ampla para processar dinamicamente consultas médicas complexas sem treinamento adicional.
5 meses atrás
01.9K
Agentic Object Detection:无需标注和训练的视觉目标检测工具

Agentic Object Detection: uma ferramenta para detecção de objetos visuais sem anotação e treinamento

Introdução abrangente A Agentic Object Detection é uma ferramenta avançada de detecção de alvos da Landing AI. A ferramenta realiza a detecção por meio de prompts de texto, eliminando a necessidade de anotação de dados e treinamento de modelos, simplificando muito o processo de detecção de alvos tradicional...
6 meses atrás
01.6K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: modelo multimodal de código aberto para apoiar a compreensão de vídeos e várias rodadas de diálogo

Introdução abrangente O CogVLM2 é um modelo multimodal de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), com base na arquitetura Llama3-8B e com o objetivo de oferecer desempenho comparável ou até melhor que o GPT-4V. O modelo oferece suporte à compreensão de imagens, ao diálogo em várias rodadas e à...
6 meses atrás
01.5K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Video Analyzer: analisa o conteúdo do vídeo e gera descrições detalhadas

O Comprehensive Introduction Video Analyzer é uma ferramenta abrangente de análise de vídeo que combina visão computacional, transcrição de áudio e técnicas de processamento de linguagem natural para gerar descrições detalhadas do conteúdo do vídeo. A ferramenta transcreve o conteúdo de áudio extraindo quadros-chave do vídeo...
6 meses atrás
03.2K
Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务

Twelve Labs: soluções multimodais de IA para compreensão de conteúdo de vídeo, pesquisa de vídeo, geração e incorporação de serviços de API

Introdução geral A Twelve Labs é uma empresa de IA multimodal focada na compreensão de vídeos, dedicada a ajudar os usuários a compreender e processar grandes quantidades de conteúdo de vídeo por meio de tecnologias avançadas de IA. Suas principais tecnologias incluem pesquisa, geração e incorporação de vídeo, que são capazes de extrair os principais recursos do vídeo, como ações, objetos...
6 meses atrás
01.8K