Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife
Total de 15 artigos

Tags: visão detecção de alvos

YOLOE:实时视频检测和分割物体的开源工具-首席AI分享圈

YOLOE: uma ferramenta de código aberto para detecção de vídeo em tempo real e segmentação de objetos

O YOLOE é um projeto de código-fonte aberto desenvolvido pelo Grupo de Inteligência Multimídia (THU-MIG) da Escola de Software da Universidade de Tsinghua, com o nome completo "You Only Look Once Eye". Ele se baseia na estrutura PyTorch e é uma extensão da série YOLO, que pode detectar e segmentar qualquer objeto em tempo real. O projeto está hospedado no GitHub, ...

SegAnyMo:从视频中自动分割任意运动物体的开源工具-首席AI分享圈

SegAnyMo: uma ferramenta de código aberto para segmentar automaticamente objetos móveis arbitrários em vídeos

Introdução geral O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou veículos. Ela combina o TAP...

RF-DETR:实时视觉对象检测开源模型-首席AI分享圈

RF-DETR: um modelo de código aberto para detecção de objetos visuais em tempo real

Introdução abrangente O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele se baseia na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. O modelo obteve a primeira detecção em tempo real de mais de 60 APs no conjunto de dados Microsoft COCO, bem como um excelente desempenho no benchmark RF100-VL,...

HumanOmni:分析人类视频情感和动作的多模态大模型-首席AI分享圈

HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos

Introdução geral O HumanOmni é um grande modelo multimodal de código aberto desenvolvido pela equipe HumanMLLM e hospedado no GitHub. Ele se concentra na análise de vídeos humanos e pode processar imagens e sons para ajudar a entender o conteúdo de emoções, ações e diálogos. O projeto usou 2,4 milhões de videoclipes centrados em humanos e...

Vision Agent:解决多种视觉目标检测任务的视觉智能体-首席AI分享圈

Vision Agent: uma inteligência visual para resolver várias tarefas de detecção visual de alvos

Introdução geral O Vision Agent é um projeto de código aberto desenvolvido pela LandingAI (equipe de Enda Wu) e hospedado no GitHub para ajudar os usuários a gerar código rapidamente para resolver tarefas de visão computacional. Ele usa uma estrutura de agente avançada e um modelo multimodal para gerar eficiência por meio de solicitações simples...

MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率-首席AI分享圈

MakeSense: uma ferramenta de anotação de imagens de uso gratuito para aumentar a eficiência do projeto de visão computacional

Introdução geral O Make Sense é uma ferramenta gratuita de anotação de imagens on-line criada para ajudar os usuários a preparar rapidamente conjuntos de dados para projetos de visão computacional. Ela não requer instalação complicada, basta abrir um acesso ao navegador para usá-la, é compatível com vários sistemas operacionais e é ideal para pequenos projetos de aprendizagem profunda. Os usuários podem usá-la para...

YOLOv12:实时图像和视频目标检测的开源工具-首席AI分享圈

YOLOv12: uma ferramenta de código aberto para detecção de alvos em imagens e vídeos em tempo real

Introdução abrangente O YOLOv12 é um projeto de código aberto desenvolvido pelo usuário do GitHub sunsmarterjie, com foco na tecnologia de detecção de alvos em tempo real. O projeto se baseia na série de estruturas YOLO (You Only Look Once), na introdução do mecanismo de atenção para otimizar o desempenho das redes neurais convolucionais tradicionais (CNN), não apenas na detecção ...

HealthGPT:支持医学图像分析与诊断问答的医疗大模型-首席AI分享圈

HealthGPT: um grande modelo médico para apoiar a análise de imagens médicas e as perguntas e respostas de diagnóstico

Introdução abrangente O HealthGPT é um modelo avançado de linguagem visual médica que visa a obter recursos unificados de geração e compreensão visual médica por meio da adaptação de conhecimento heterogêneo. O objetivo do projeto é integrar os recursos de geração e compreensão da visão médica em uma estrutura autorregressiva unificada que aprimora significativamente o processamento de imagens médicas...

MedRAX: 利用多模态大模型进行胸部X光片分析的智能体-首席AI分享圈

MedRAX: um corpo inteligente para análise de radiografias de tórax usando macromodelos multimodais

Introdução abrangente O MedRAX é uma inteligência de IA de última geração projetada para análise de radiografia de tórax (CXR). Ele integra ferramentas de análise de CXR de última geração e um modelo multimodal de linguagem grande para processar dinamicamente consultas médicas complexas sem treinamento adicional.

Agentic Object Detection:无需标注和训练的视觉目标检测工具-首席AI分享圈

Agentic Object Detection: uma ferramenta para detecção de objetos visuais sem anotação e treinamento

Introdução abrangente A Agentic Object Detection é uma ferramenta avançada de detecção de alvos da Landing AI. A ferramenta simplifica bastante o processo de detecção de alvos tradicional, usando prompts de texto para detecção sem a necessidade de rotulagem de dados e treinamento de modelos. Os usuários simplesmente carregam uma imagem e inserem os avisos de detecção, e a IA ...

CogVLM2:开源多模态模型,支持视频理解与多轮对话-首席AI分享圈

CogVLM2: modelo multimodal de código aberto para apoiar a compreensão de vídeos e várias rodadas de diálogo

Introdução geral O CogVLM2 é um modelo multimodal de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), baseado na arquitetura Llama3-8B e projetado para oferecer desempenho comparável ou até melhor que o GPT-4V. O modelo oferece suporte à compreensão de imagens, ao diálogo em várias rodadas e à compreensão de vídeos, e é capaz de lidar com conteúdo de até 8K de comprimento...

视频分析工具(Video Analyzer):分析视频内容并生成详细描述-首席AI分享圈

Video Analyzer: analisa o conteúdo do vídeo e gera descrições detalhadas

O Comprehensive Introduction Video Analyzer é uma ferramenta abrangente de análise de vídeo que combina visão computacional, transcrição de áudio e técnicas de processamento de linguagem natural para gerar descrições detalhadas do conteúdo do vídeo. A ferramenta faz isso extraindo quadros-chave do vídeo, transcrevendo o conteúdo de áudio e gerando descrições de linguagem natural...

Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务-首席AI分享圈

Twelve Labs: soluções multimodais de IA para compreensão de conteúdo de vídeo, pesquisa de vídeo, geração e incorporação de serviços de API

Introdução geral A Twelve Labs é uma empresa de IA multimodal focada na compreensão de vídeos, dedicada a ajudar os usuários a compreender e processar grandes quantidades de conteúdo de vídeo por meio de tecnologias avançadas de IA. Suas principais tecnologias incluem pesquisa, geração e incorporação de vídeo que podem extrair os principais recursos do vídeo, como ações, objetos, texto na tela,...

pt_BRPortuguês do Brasil