Tarsier: модель понимания видео с открытым исходным кодом для создания высококачественных видеоописаний

Общее введение

Tarsier - это семейство моделей видеоязыка с открытым исходным кодом, разработанное компанией ByteDance и используемое в основном для создания высококачественных видеоописаний. Оно состоит из простой структуры: CLIP-ViT обрабатывает видеокадры и анализирует временные отношения в сочетании с большой языковой моделью (LLM). Последняя версия, Tarsier2-7B (выпущена в январе 2025 года), достигла высшего уровня в 16 публичных бенчмарках и может конкурировать с такими моделями, как GPT-4o. Tarsier поддерживает описание видео, вопросы и ответы, а также генерацию субтитров с нулевой выборкой, а код, модели и данные находятся в открытом доступе на GitHub. Проект также запустил бенчмарк DREAM-1K для оценки возможностей видеоописания, который содержит 1000 разнообразных видеоклипов.

Tarsier:生成高质量视频描述的开源视频理解模型

 

Список функций

  • Генерируйте подробные описания видео: анализируйте видеоконтент и выводите подробный текст.
  • Поддержка вопросов и ответов на видео: отвечайте на вопросы, связанные с видео, например, о событиях или деталях.
  • Генерация субтитров с нулевой выборкой: создание субтитров для видео без обучения.
  • Многозадачное понимание видео: отлично справляется с несколькими задачами, такими как викторина и создание титров.
  • Развертывание с открытым исходным кодом: предоставление весов модели и кода для запуска локально или в облаке.
  • Предоставляет инструменты оценки: включает набор данных DREAM-1K и методологию оценки AutoDQ.

 

Использование помощи

Tarsier подходит для пользователей с техническим образованием, таких как разработчики или исследователи. Ниже приведены подробные инструкции по установке и использованию.

Процесс установки

  1. Подготовка среды
    Требуется Python 3.9 или более поздняя версия. Рекомендуется использовать виртуальную среду:
conda create -n tarsier python=3.9
conda activate tarsier
  1. склад клонов
    Загрузите код проекта Tarsier:
git clone https://github.com/bytedance/tarsier.git
cd tarsier
git checkout tarsier2
  1. Установка зависимостей
    Запустите сценарий установки:
bash setup.sh

Это позволит установить все необходимые библиотеки, такие как PyTorch и инструменты Hugging Face.

  1. Поддержка графического процессора (опционально)
    Если у вас есть графический процессор NVIDIA, установите PyTorch с CUDA:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
  1. Скачать модели
    Загрузите модели с сайта Hugging Face, например Tarsier2-7B:
huggingface-cli download omni-research/Tarsier2-7b

Другие модели, такие как Tarsier-34b или Tarsier2-Recap-7b, также доступны по официальным ссылкам.

  1. Проверка установки
    Запустите сценарий быстрого тестирования:
python3 -m tasks.inference_quick_start --model_name_or_path path/to/Tarsier2-7b --input_path assets/videos/coffee.gif

На выходе должно получиться описание видео, например "Мужчина берет кофейную чашку с пенкой в форме сердца и делает глоток".

Основные функции

Создайте описание видео

  • перейти
  1. Подготовьте видеофайл (поддерживаются такие форматы, как MP4, GIF и т.д.).
  2. Выполнить команду:
python3 -m tasks.inference_quick_start --model_name_or_path path/to/Tarsier2-7b --instruction "Describe the video in detail." --input_path your/video.mp4
  1. Выходные данные отображаются в терминале, например, описание действий и сцен в видео.
  • принимать к сведению
  • Слишком длинные видео могут потребовать больше памяти, поэтому мы рекомендуем сначала протестировать короткое видео.
  • Настраиваемые параметры, такие как частота кадров (см. configs/tarser2_default_config.yaml).

Видео вопросы и ответы

  • перейти
  1. Укажите вопросы и видеоролики:
python3 -m tasks.inference_quick_start --model_name_or_path path/to/Tarsier2-7b --instruction "视频里的人在做什么?" --input_path your/video.mp4
  1. Выдайте прямой ответ, например, "Он пьет кофе".
  • привлекать внимание к чему-л.
  • Вопросы должны быть конкретными и не допускать двусмысленности.
  • Поддержка китайского и других языков, лучше всего работает китайский.

Генерация субтитров с нулевым образцом

  • перейти
  1. Измените файл конфигурации, чтобы включить режим субтитров (configs/tarser2_default_config.yaml устанавливать task: caption).
  2. Бег:
python3 -m tasks.inference_quick_start --model_name_or_path path/to/Tarsier2-7b --config configs/tarser2_default_config.yaml --input_path your/video.mp4
  1. Выводит короткие субтитры, например "Пить кофе в одиночестве".

Развертывание местных служб

  • перейти
  1. Установите vLLM (рекомендуется версия 0.6.6):
pip install vllm==0.6.6
  1. Начните обслуживание:
python -m vllm.entrypoints.openai.api_server --model path/to/Tarsier2-7b
  1. Вызывается с помощью API:
curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{"prompt": "描述这个视频", "video_path": "your/video.mp4"}'
  • vantage
  • Видео можно обрабатывать партиями.
  • Легкая интеграция в другие системы.

Функциональное управление

Оценка DREAM-1K

  • перейти
  1. Загрузите набор данных DREAM-1K:
wget https://tarsier-vlm.github.io/DREAM-1K.zip
unzip DREAM-1K.zip
  1. Оперативная оценка:
bash scripts/run_inference_benchmark.sh path/to/Tarsier2-7b output_dir dream
  1. На выходе получаются метрики, такие как оценки F1, которые показывают качество описания.

Оценка AutoDQ

  • перейти
  1. Обеспечьте установку ChatGPT зависимости (требуется настройка Azure OpenAI).
  2. Запустите сценарий оценки:
python evaluation/metrics/evaluate_dream_gpt.py --pred_dir output_dir/dream_predictions
  1. Выводит автоматизированный оценочный балл, измеряющий точность описания.

Часто задаваемые вопросы

  • нарушение монтажа: Проверьте версию Python и сеть, обновите pip (pip install -U pip).
  • Медленная загрузка модели: Убедитесь, что у вас достаточно места на диске, рекомендуется не менее 50 ГБ.
  • Отсутствие выхода GPU: Беги nvidia-smi Убедитесь, что CUDA работает правильно.

Опыт работы в Интернете

Выполнив эти шаги, вы сможете легко справляться с задачами, связанными с видео, с помощью Tarsier. Будь то создание описаний или развертывание сервисов - все просто и эффективно.

 

сценарий применения

  1. Составление видеоматериалов
    Работники СМИ могут использовать Tarsier для создания кратких видеозаписей и быстрой организации отснятого материала.
  2. Учебная видеопомощь
    Преподаватели могут создавать субтитры или тесты для видеокурсов, чтобы повысить эффективность преподавания и обучения.
  3. Короткий видеоанализ
    Маркетологи могут анализировать содержание коротких видеороликов, таких как TikTok, и извлекать из них ключевые сообщения для продвижения.

 

QA

  1. Какие форматы видео поддерживаются?
    Поддержка MP4, GIF, AVI и т.д., если FFmpeg может их декодировать.
  2. Каковы требования к оборудованию?
    Минимум 16 ГБ оперативной памяти и 4 ГБ видеопамяти, рекомендуется графический процессор NVIDIA (например, 3090).
  3. Есть ли он в продаже?
    Да, Tarsier использует лицензию Apache 2.0, и коммерческое использование разрешено в соответствии с условиями.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...