Как долго видео может быть понятно большой модели? Smart Spectrum GLM-4V-Plus: 2 часа

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

66.9K 00

Основываясь на предыдущих двух поколениях видеомоделей (CogVLM2-Video и GLM-4V-PLUS), мы еще больше оптимизировали методы понимания видео, выпустив бета-версию GLM-4V-Plus-0111. В этой версии представлены такие технологии, как собственное переменное разрешение, что улучшает способность модели адаптироваться к видео различной длины и разрешения.

Более детальное понимание коротких видео: для контента с короткой длиной видео модель поддерживает встроенное видео высокого разрешения для точного захвата детальной информации.
Более глубокое понимание длинных видео: при просмотре видео длиной до 2 часов модель может автоматически перестраиваться на меньшее разрешение, эффективно балансируя между захватом временной и пространственной информации для достижения глубокого понимания длинных видео.

В этом обновлении бета-версия GLM-4V-Plus-0111 не только сохраняет преимущества предыдущих двух поколений моделей в плане временного Q&A, но и достигает значительных улучшений в длине видео и адаптивности разрешения.

I. Сравнение производительности

В недавно опубликованном выпуске новой модели Smart Spectrum Realtime, 4V, Air, синхронизированном с новой статьей об API, мы подробно описали результаты обзора модели GLM-4V-Plus-0111 (beta) в области понимания изображений. Модель достигла уровня sota в нескольких списках публичных рецензий.

Кроме того, мы также провели комплексное тестирование с авторитетным набором обзоров понимания видео, и также достигли относительно высокого уровня. В частности, бета-модель GLM-4V-Plus-0111 значительно превосходит аналогичные модели понимания видео с точки зрения тонкого понимания действий в видео и понимания длинных видео.

MVBench: этот набор состоит из 20 сложных видеозадач, предназначенных для всесторонней оценки совокупных возможностей мультимодальных макромоделей в понимании видео.
VideoMME w/o subs: В качестве мультимодального эталона VideoMME используется для оценки возможностей видеоанализа больших языковых моделей. В данном случае версия w/o subs обозначает мультимодальный вход без субтитров, сосредоточенный на анализе самого видео.
VideoMME w/ subs: аналогично версии w/o subs, но с добавлением субтитров в качестве мультимодальных входных данных для более полной оценки общей эффективности модели при работе с мультимодальными данными.
MotionBench: Сосредоточившись на тонком понимании движений, MotionBench представляет собой всеобъемлющий эталонный набор данных, содержащий разнообразные видеоданные и высококачественные человеческие аннотации для оценки возможностей моделей понимания видео для анализа движений.
LVBench: LVBench предназначен для оценки способности модели понимать длинные видео, он проверяет производительность мультимодальных моделей при решении задач с длинными видео, а также проверяет стабильность и точность моделей при анализе длинных временных рядов.

II. Применение сценария

За последний год области применения моделей понимания видео расширились, обеспечив такие разнообразные возможности, как создание видеоописаний, сегментация событий, классификация, маркировка и анализ событий для таких отраслей, как новые медиа, реклама, безопасность и промышленное производство. Наша новая бета-модель видеопонимания GLM-4V-Plus-0111 унаследовала и укрепила эти базовые функции, а также расширила возможности обработки и анализа видеоданных.

Возможность более точного описания видео: благодаря использованию исходных данных с собственным разрешением и непрерывной оптимизации фантома маховика данных новая модель значительно снижает уровень фантома при создании видеоописания и обеспечивает более полное описание видеоконтента, предоставляя пользователям более точную и насыщенную видеоинформацию.

Эффективная обработка видеоданных: новая модель способна не только предоставлять подробные описания видео, но и эффективно выполнять задачи по классификации, созданию названий и маркировке видео. Пользователи могут еще больше повысить эффективность обработки, настраивая подсказки или создавая автоматизированные процессы обработки видеоданных для интеллектуального управления.

Точное понимание времени: в связи с тем, что видеоданные имеют временную размерность, наша модель с самого начала своего существования была направлена на улучшение возможностей по определению времени. Теперь новая модель может более точно определять временные точки конкретных событий, обеспечивать семантическую сегментацию и автоматическое редактирование видео, а также предоставлять мощную поддержку для редактирования и анализа видео.

Возможность точного понимания движения: новая модель поддерживает входные сигналы с более высокой частотой кадров, что позволяет фиксировать небольшие изменения движения и достигать более тонкого понимания движения даже при более низкой частоте кадров видео, обеспечивая надежную гарантию для сценариев применения, требующих точного анализа движения.

Сверхдлительное восприятие видео: благодаря инновационной технологии переменного разрешения новая модель преодолевает ограничения по времени обработки видео и поддерживает восприятие видео до 2 часов, что значительно расширяет сценарии применения модели для восприятия видео в бизнесе, и ниже приведен пример восприятия видео на уровне одного часа:

Возможность видеозвонков в реальном времени: На основе мощной модели понимания видео мы разработали модель видеозвонков в реальном времени GLM-Realtime, которая позволяет понимать видео и отвечать на вопросы в реальном времени, а также запоминать время разговора до 2 минут. Модель уже доступна в режиме онлайнОткрытая платформа Smart Spectrum AIGLM-Realtime не только помогает клиентам создавать интеллектуальные системы для видеозвонков, но и сочетается с существующим сетевым оборудованием, позволяя легко создавать инновационные продукты, такие как умные дома, игрушки с искусственным интеллектом, очки с искусственным интеллектом и многое другое.

В настоящее время обычные пользователи также могут получить опыт совершения видеозвонков с искусственным интеллектом в приложении Smart Spectrum Clear Speech App.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Генерация изображений ChatGPT зажигает веб: технологический прорыв, фурор по поводу авторских прав и арифметическая катастрофа

Новости ИИ

1 год назад

056.4K

Домен AI.com перенаправляет на chat.deepseek.com

Новости ИИ

1 год назад

064.7K

Новости сегодня: OpenAI ставит водяные знаки на изображения DALL-E 3, чтобы гарантировать их подлинность

Новости ИИ

2 года назад

046K

Run:ai с открытым исходным кодом! Ход Nvidia заставил игроков в мире ИИ сесть на свои места

Новости ИИ

1 год назад

044.9K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Как долго видео может быть понятно большой модели? Smart Spectrum GLM-4V-Plus: 2 часа

I. Сравнение производительности

II. Применение сценария

Qwen2.5-1M: модель Qwen с открытым исходным кодом и поддержкой 1 миллиона контекстов токенов

Глубокий анализ рынка агентов стоимостью 300 миллиардов долларов с примерами из практики

Похожие статьи

Генерация изображений ChatGPT зажигает веб: технологический прорыв, фурор по поводу авторских прав и арифметическая катастрофа

Домен AI.com перенаправляет на chat.deepseek.com

Новости сегодня: OpenAI ставит водяные знаки на изображения DALL-E 3, чтобы гарантировать их подлинность

Run:ai с открытым исходным кодом! Ход Nvidia заставил игроков в мире ИИ сесть на свои места

Нет комментариев

Последние коллекции

Последние статьи

Как долго видео может быть понятно большой модели? Smart Spectrum GLM-4V-Plus: 2 часа

I. Сравнение производительности

II. Применение сценария

Qwen2.5-1M: модель Qwen с открытым исходным кодом и поддержкой 1 миллиона контекстов токенов

Глубокий анализ рынка агентов стоимостью 300 миллиардов долларов с примерами из практики

Похожие статьи

Генерация изображений ChatGPT зажигает веб: технологический прорыв, фурор по поводу авторских прав и арифметическая катастрофа

Домен AI.com перенаправляет на chat.deepseek.com

Новости сегодня: OpenAI ставит водяные знаки на изображения DALL-E 3, чтобы гарантировать их подлинность

Run:ai с открытым исходным кодом! Ход Nvidia заставил игроков в мире ИИ сесть на свои места

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи