Как долго видео может быть понятно большой модели? Smart Spectrum GLM-4V-Plus: 2 часа

Основываясь на предыдущих двух поколениях видеомоделей (CogVLM2-Video и GLM-4V-PLUS), мы еще больше оптимизировали методы понимания видео, выпустив бета-версию GLM-4V-Plus-0111. В этой версии представлены такие технологии, как собственное переменное разрешение, что улучшает способность модели адаптироваться к видео различной длины и разрешения.
- Более детальное понимание коротких видео: для контента с короткой длиной видео модель поддерживает встроенное видео высокого разрешения для точного захвата детальной информации.
- Более глубокое понимание длинных видео: при просмотре видео длиной до 2 часов модель может автоматически перестраиваться на меньшее разрешение, эффективно балансируя между захватом временной и пространственной информации для достижения глубокого понимания длинных видео.
В этом обновлении бета-версия GLM-4V-Plus-0111 не только сохраняет преимущества предыдущих двух поколений моделей в плане временного Q&A, но и достигает значительных улучшений в длине видео и адаптивности разрешения.
I. Сравнение производительности
В недавно опубликованном выпуске новой модели Smart Spectrum Realtime, 4V, Air, синхронизированном с новой статьей об API, мы подробно описали результаты обзора модели GLM-4V-Plus-0111 (beta) в области понимания изображений. Модель достигла уровня sota в нескольких списках публичных рецензий.

Кроме того, мы также провели комплексное тестирование с авторитетным набором обзоров понимания видео, и также достигли относительно высокого уровня. В частности, бета-модель GLM-4V-Plus-0111 значительно превосходит аналогичные модели понимания видео с точки зрения тонкого понимания действий в видео и понимания длинных видео.

- MVBench: этот набор состоит из 20 сложных видеозадач, предназначенных для всесторонней оценки совокупных возможностей мультимодальных макромоделей в понимании видео.
- VideoMME w/o subs: В качестве мультимодального эталона VideoMME используется для оценки возможностей видеоанализа больших языковых моделей. В данном случае версия w/o subs обозначает мультимодальный вход без субтитров, сосредоточенный на анализе самого видео.
- VideoMME w/ subs: аналогично версии w/o subs, но с добавлением субтитров в качестве мультимодальных входных данных для более полной оценки общей эффективности модели при работе с мультимодальными данными.
- MotionBench: Сосредоточившись на тонком понимании движений, MotionBench представляет собой всеобъемлющий эталонный набор данных, содержащий разнообразные видеоданные и высококачественные человеческие аннотации для оценки возможностей моделей понимания видео для анализа движений.
- LVBench: LVBench предназначен для оценки способности модели понимать длинные видео, он проверяет производительность мультимодальных моделей при решении задач с длинными видео, а также проверяет стабильность и точность моделей при анализе длинных временных рядов.
II. Применение сценария
За последний год области применения моделей понимания видео расширились, обеспечив такие разнообразные возможности, как создание видеоописаний, сегментация событий, классификация, маркировка и анализ событий для таких отраслей, как новые медиа, реклама, безопасность и промышленное производство. Наша новая бета-модель видеопонимания GLM-4V-Plus-0111 унаследовала и укрепила эти базовые функции, а также расширила возможности обработки и анализа видеоданных.
Возможность более точного описания видео: благодаря использованию исходных данных с собственным разрешением и непрерывной оптимизации фантома маховика данных новая модель значительно снижает уровень фантома при создании видеоописания и обеспечивает более полное описание видеоконтента, предоставляя пользователям более точную и насыщенную видеоинформацию.


Эффективная обработка видеоданных: новая модель способна не только предоставлять подробные описания видео, но и эффективно выполнять задачи по классификации, созданию названий и маркировке видео. Пользователи могут еще больше повысить эффективность обработки, настраивая подсказки или создавая автоматизированные процессы обработки видеоданных для интеллектуального управления.

Точное понимание времени: в связи с тем, что видеоданные имеют временную размерность, наша модель с самого начала своего существования была направлена на улучшение возможностей по определению времени. Теперь новая модель может более точно определять временные точки конкретных событий, обеспечивать семантическую сегментацию и автоматическое редактирование видео, а также предоставлять мощную поддержку для редактирования и анализа видео.

Возможность точного понимания движения: новая модель поддерживает входные сигналы с более высокой частотой кадров, что позволяет фиксировать небольшие изменения движения и достигать более тонкого понимания движения даже при более низкой частоте кадров видео, обеспечивая надежную гарантию для сценариев применения, требующих точного анализа движения.


Сверхдлительное восприятие видео: благодаря инновационной технологии переменного разрешения новая модель преодолевает ограничения по времени обработки видео и поддерживает восприятие видео до 2 часов, что значительно расширяет сценарии применения модели для восприятия видео в бизнесе, и ниже приведен пример восприятия видео на уровне одного часа:

Возможность видеозвонков в реальном времени: На основе мощной модели понимания видео мы разработали модель видеозвонков в реальном времени GLM-Realtime, которая позволяет понимать видео и отвечать на вопросы в реальном времени, а также запоминать время разговора до 2 минут. Модель уже доступна в режиме онлайнОткрытая платформа Smart Spectrum AIGLM-Realtime не только помогает клиентам создавать интеллектуальные системы для видеозвонков, но и сочетается с существующим сетевым оборудованием, позволяя легко создавать инновационные продукты, такие как умные дома, игрушки с искусственным интеллектом, очки с искусственным интеллектом и многое другое.
В настоящее время обычные пользователи также могут получить опыт совершения видеозвонков с искусственным интеллектом в приложении Smart Spectrum Clear Speech App.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...