Open-o3 Video - модель рассуждений о видео с открытым исходным кодом Пекинского университета Объединенные байты

Последние ресурсы по искусственному интеллектуОпубликовано 5 месяцев назад Круг обмена ИИ

27.8K 00

Что такое Open-o3 Video

Open-o3 Video - это модель вывода видео с открытым исходным кодом, разработанная совместно Пекинским университетом и ByteDance и направленная на улучшение вывода видео с помощью временных и пространственных данных. Явное обозначение ключевых признаков временными метками и ограничительными рамками помогает модели лучше понимать и интерпретировать видеоконтент. Модель обучается с помощью двухэтапной стратегии обучения, начиная с холодного старта с помощью контролируемой тонкой настройки (SFT) и затем сочетая ее с оптимизацией обучения с усилением (RL) для обеспечения точности ответа и пространственно-временного соответствия. Команда также создала высококачественные наборы данных STGR-CoT-30k и STGR-RL-36k, чтобы обеспечить богатый пространственно-временной контролируемый сигнал для обучения модели.

Особенности Open-o3 Video

Временные доказательства улучшают рассужденияOpen-o3 Video включает временные и пространственные данные в процесс рассуждений, явно маркируя ключевые временные метки и ограничительные рамки, чтобы повысить точность и интерпретируемость понимания видео.
Поддержка высококачественных наборов данныхКоманда создала два высококачественных набора данных, STGR-CoT-30k и STGR-RL-36k, чтобы предоставить богатые пространственно-временные контролируемые сигналы для обучения модели и обеспечить улучшение возможностей вывода.
Двухэтапная стратегия обучения: Для оптимизации точности умозаключений, временного согласования и пространственной точности модели с помощью нескольких механизмов вознаграждения используется комбинация Supervised Fine-Tuning (SFT) и Reinforcement Learning (RL) обучения.
Превосходная производительность: В эталонном тесте V-STAR Open-o3 Video значительно превосходит другие модели: метрики mAM и mLGM достигли 35,5% и 49,0%, соответственно, демонстрируя сильные возможности видеоанализа.
Открытый исходный код и простота использования: Код и модель были открыты на GitHub и Hugging Face для легкого использования и дальнейшего развития исследователями и разработчиками, чтобы способствовать широкому применению технологии понимания видео.

Основные преимущества Open-o3 Video

Интеграция пространственно-временных данных: Модель явно маркирует ключевые временные метки и ограничительные рамки в процессе вывода, тесно объединяя временную и пространственную информацию с путями вывода, что значительно повышает точность и интерпретируемость вывода по видео.
Благодаря высококачественным наборам данных: Команда разработчиков создала два высококачественных набора данных (STGR-CoT-30k и STGR-RL-36k) для получения однородных пространственно-временных контролируемых сигналов, которые обеспечивают надежную базу данных для обучения моделей и гарантируют производительность моделей в сложных сценариях.
Двухэтапное оптимизированное обучение: Стратегия обучения, сочетающая контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL), используется для оптимизации точности выводов, временного выравнивания и пространственной точности модели с помощью нескольких механизмов вознаграждения для комплексного улучшения производительности модели.
Отличная производительность: В бенчмарке V-STAR Open-o3 Video значительно превосходит другие аналогичные модели по ключевым показателям (например, mAM и mLGM), демонстрируя свою конкурентоспособность в области видеоанализа.
Возможность мультимодального слияния: Основанный на мощных мультимодальных базовых моделях (например, Qwen3-VL-8B), Open-o3 Video способен эффективно обрабатывать текст, изображения и временную информацию в видео для более точного рассуждения и интерпретации.

Что является официальным сайтом Open-o3 Video?

Веб-сайт проекта:: https://marinero4972.github.io/projects/Open-o3-Video/
Репозиторий Github:: https://github.com/marinero4972/Open-o3-Video
Библиотека моделей HuggingFace:: https://huggingface.co/marinero4972/Open-o3-Video/tree/main
Технический документ arXiv:: https://arxiv.org/pdf/2510.20579

Для кого предназначен Open-o3 Video

Исследователи искусственного интеллектаИсследователи, занимающиеся вопросами понимания видео, мультимодального обучения и обработки естественного языка, могут использовать эту модель для передовых исследований и оптимизации алгоритмов.
Инженер по компьютерному зрениюИнженеры, работающие в области видеоаналитики, обнаружения целей и создания видеоконтента, могут использовать модели для повышения производительности проектов и эффективности разработки.
специалист по анализу данныхУченые, которым необходимо обрабатывать и анализировать большие видеоданные, могут использовать эту модель для получения более точных результатов видеоанализа.
преподаватели и студенты высших учебных заведенийПреподаватели и студенты факультетов компьютерных наук и дисциплин, связанных с искусственным интеллектом, могут использовать его в качестве учебного и исследовательского инструмента для изучения новейших технологий в области понимания видео.
Корпоративная техническая командаТехнологические команды предприятий в области создания видеоконтента, интеллектуальной безопасности и автоматического вождения могут применять модели в реальных бизнес-сценариях для повышения конкурентоспособности продукции.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.