Визуальное обнаружение целей

Всего 18 статей

расставлять по порядку

Видеоанализатор: анализирует видеоконтент и создает подробные описания

Comprehensive Introduction Video Analyzer - это инструмент комплексного анализа видео, сочетающий компьютерное зрение, транскрипцию аудио и методы обработки естественного языка для создания подробных описаний видеоконтента. Инструмент расшифровывает аудиоконтент, извлекая ключевые кадры из видео...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

0148.2K

YOLOv12: инструмент с открытым исходным кодом для обнаружения целей на изображениях и видео в реальном времени

Всеобъемлющее введение YOLOv12 - это проект с открытым исходным кодом, разработанный пользователем GitHub sunsmarterjie, ориентированный на технологию обнаружения целей в реальном времени. Проект основан на серии фреймворков YOLO (You Only Look Once), внедрение нот ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

0140K

MakeSense: бесплатный инструмент для аннотирования изображений, повышающий эффективность проектов по компьютерному зрению

Общее представление Make Sense - это бесплатный онлайн-инструмент для аннотирования изображений, предназначенный для быстрой подготовки наборов данных для проектов по компьютерному зрению. Он не требует сложной установки, для его использования достаточно открыть доступ в браузере, поддерживает множество операционных систем и идеально подходит для небольших проектов глубокого обучения. Пользователи могут...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

0126.4K

RF-DETR: модель с открытым исходным кодом для обнаружения визуальных объектов в реальном времени

Всеобъемлющее введение RF-DETR - это модель обнаружения объектов с открытым исходным кодом, разработанная командой Roboflow. Она основана на архитектуре Transformer, и ее основной особенностью является эффективность в реальном времени. Впервые модель достигла более 60 точек доступа в реальном времени на наборе данных Microsoft COCO...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

0117.6K

VLM-R1: модель визуального языка для определения местоположения целей изображения с помощью естественного языка

Всеобъемлющее введение VLM-R1 - это проект визуального моделирования языка с открытым исходным кодом, разработанный Om AI Lab и размещенный на GitHub. Проект основан на подходе R1 компании DeepSeek, объединенном с моделью Qwen2.5-VL, с помощью обучения с подкреплением...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

098.8K

YOLOE: инструмент с открытым исходным кодом для обнаружения и сегментации объектов на видео в реальном времени

YOLOE - проект с открытым исходным кодом, разработанный Группой мультимедийного интеллекта (THU-MIG) Школы программного обеспечения Университета Цинхуа, полное название - "You Only Look Once Eye". Он основан на фреймворке PyTorch, который относится к серии расширений YOLO ...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI-ключ для смены фона # Визуальное обнаружение целей

1 год назад

096.9K

Trackers: библиотека инструментов с открытым исходным кодом для отслеживания видеообъектов

Общее представление Trackers - это библиотека инструментов Python с открытым исходным кодом, ориентированная на отслеживание нескольких объектов в видео. Она объединяет несколько ведущих алгоритмов отслеживания, таких как SORT и DeepSORT, и позволяет пользователям комбинировать различные модели обнаружения объектов (например, YOLO...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

095K

SegAnyMo: инструмент с открытым исходным кодом для автоматического сегментирования произвольных движущихся объектов из видео.

Общее представление SegAnyMo - это проект с открытым исходным кодом, разработанный группой исследователей из Калифорнийского университета в Беркли и Пекинского университета, включая таких членов, как Нан Хуанг. Этот инструмент ориентирован на обработку видео и может автоматически идентифицировать и сегментировать произвольные движущиеся объекты на видео, такие как люди, животные или...

1 год назад

088.8K

CogVLM2: мультимодальная модель с открытым исходным кодом для поддержки понимания видео и многораундового диалога

Введение CogVLM2 - это мультимодальная модель с открытым исходным кодом, разработанная исследовательской группой Tsinghua University Data Mining Research Group (THUDM), основанная на архитектуре Llama3-8B и стремящаяся обеспечить производительность, сравнимую или даже превосходящую GPT-4V. Модель поддерживает понимание изображений, многораундовый диалог и визуальный...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

086.6K

MedRAX: интеллектуальный орган для анализа рентгенограмм грудной клетки с использованием мультимодальных макромоделей

Всеобъемлющее введение MedRAX - это современный искусственный интеллект, предназначенный для анализа рентгенограмм грудной клетки (РГК). Он объединяет современные инструменты для анализа рентгенограмм и мультимодальные большие языковые модели для динамической обработки сложных медицинских запросов без дополнительного обучения.MedRAX, благодаря своей модульной конструкции...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Применение интеллектуального кузова # Визуальное обнаружение целей

1 год назад

086.1K

Vision Agent: визуальный интеллект для решения множества задач по обнаружению визуальных целей

Общее представление Vision Agent - это проект с открытым исходным кодом, разработанный компанией LandingAI (команда Enda Wu) и размещенный на GitHub, призванный помочь пользователям быстро генерировать код для решения задач компьютерного зрения. В нем используется продвинутый агентский фреймворк и мультимодальные модели...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

085K

HumanOmni: мультимодальная макромодель для анализа эмоций и действий человека на видео

Общее введение HumanOmni - это мультимодальная модель с открытым исходным кодом, разработанная командой HumanMLLM и размещенная на GitHub. Она ориентирована на анализ человеческих видео и может обрабатывать как изображение, так и звук, чтобы помочь понять эмоции, действия и содержание диалога. В проекте использовались 2...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

083.9K

HealthGPT: Большая медицинская модель для поддержки анализа медицинских изображений и диагностических вопросов и ответов

Всеобъемлющее введение HealthGPT - это усовершенствованная модель визуального языка медицинских графов, которая направлена на достижение унифицированного медицинского визуального понимания и генерации возможностей через адаптацию гетерогенных знаний. Цель проекта - интегрировать возможности медицинского визуального понимания и генерации в единый авторегрессионный фреймворк, который значительно улучшает медицинские граф...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

080.6K

Describe Anything: инструмент с открытым исходным кодом для создания подробных описаний изображений и видео.

Общее представление Describe Anything - это проект с открытым исходным кодом, разработанный NVIDIA и несколькими университетами, в основе которого лежит модель Describe Anything Model (DAM). Этот инструмент может помечать изображения или видео, основываясь на...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

080.3K

Twelve Labs：理解视频内容的多模态AI解决方案，视频搜索、生成、嵌入API服务

Twelve Labs: мультимодальные ИИ-решения для понимания видеоконтента, поиска видео, генерации, встраивания API-сервисов

Общее представление Twelve Labs - компания, занимающаяся мультимодальным искусственным интеллектом, ориентированным на понимание видео, призванная помочь пользователям понимать и обрабатывать большие объемы видеоконтента с помощью передовых технологий искусственного интеллекта. Основные технологии компании включают поиск, генерацию и встраивание видео, которые способны извлекать из видео ключевые характеристики, такие как действия, объекты...

Последние ресурсы по искусственному интеллекту # AI Open Services # Визуальное обнаружение целей

1 год назад

080K

Gaze-LLE: инструмент предсказания цели для взгляда человека в видео

Synthesis Gaze-LLE - это инструмент для предсказания цели взгляда, основанный на крупномасштабном обучаемом кодере. Он был разработан Фионой Райан, Аджаем Бати, Сангмином Ли, Даниэлем Болья, Джуди Хоффман и Дж...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

078.8K

Agentic Object Detection：无需标注和训练的视觉目标检测工具

Агентное обнаружение объектов: инструмент для визуального обнаружения объектов без аннотации и обучения

Всеобъемлющее введение Agentic Object Detection - это передовой инструмент обнаружения целей от Landing AI. Инструмент выполняет обнаружение с помощью текстовых подсказок, устраняя необходимость в аннотации данных и обучении модели, значительно упрощая процесс традиционного обнаружения целей...

Последние ресурсы по искусственному интеллекту # Визуальное обнаружение целей

1 год назад

075.8K

Find My Kids: инструмент мониторинга безопасности детей с помощью распознавания лиц и уведомлений WhatsApp

Общее представление Find My Kids - это проект с открытым исходным кодом, размещенный на GitHub и созданный разработчиком Томером Кляйном. Он объединяет технологию распознавания лиц DeepFace с API WhatsApp Green...

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Визуальное обнаружение целей

1 год назад

072.2K

Дело не в этом.