Text2Edit: нативная мультимодальная модель для создания видеорекламы на основе текста (неопубликовано)

Новости ИИОпубликовано 7 месяцев назад Круг обмена ИИ
7.4K 00

Общее введение

Text2Edit - это проект с открытым исходным кодом, размещенный на GitHub, целью которого является предоставление функций эффективного редактирования текста и создания рекламы. Основная цель проекта - помочь пользователям быстро обрабатывать текстовый контент и генерировать высококачественные рекламные материалы с помощью простого в использовании интерфейса и мощных функций.Проект Text2Edit поддерживается группой разработчиков, кодовая база открыта, пользователи могут свободно получать доступ и вносить свой вклад. Основными языками программирования проекта являются JavaScript, HTML и CSS, что обеспечивает кроссплатформенную совместимость и отличный пользовательский опыт.

Text2Edit:文本驱动视频广告创作的原生多模态模型(未发布)

 

Text2Edit:文本驱动视频广告创作的原生多模态模型(未发布)

 

Технические характеристики

1. Мультимодальные большие языковые модели (MLLM)

В основе проекта лежит мультимодальная модель Big Language Model, которая способна одновременно обрабатывать информацию в нескольких модальностях, таких как текст, изображения и видео.

2. выборка с высокой частотой кадров и медленные методы обработки

Чтобы лучше понять пространственно-временную информацию в видео, в проекте используется высокая частота дискретизации кадров и методы медленно-быстрой обработки:

- Выборка с высокой частотой кадров: благодаря выборке видеокадров с частотой 2 кадра в секунду (fps) модель способна более чутко улавливать временные изменения в видео. Такой подход значительно повышает способность модели понимать изменения в динамике видео.

- Медленно-быстрая техника обработки: модель обрабатывает видеокадры, используя два пути одновременно.

- Медленный путь: кадры обрабатываются с меньшей частотой (например, 0,5 кадр/с), но на каждый кадр приходится больше маркеров для получения подробной пространственно-временной информации.

- Быстрый путь: обработка кадров с высокой частотой (например, 2 кадр/с), но назначение меньшего количества маркеров на кадр, сосредоточенное на захвате быстро меняющихся сцен. Эта стратегия двойного пути позволяет сбалансировать пространственно-временную и семантическую информацию видео и значительно улучшить понимание видеоконтента моделью.

3. Редактирование с помощью текста

Механизм редактирования с помощью текста позволяет пользователям точно контролировать результат редактирования видео с помощью ввода текста. Пользователи могут указать длину видеоролика, сюжетную линию, целевую аудиторию, стиль сценария, точки продаж продукта, на которые необходимо сделать акцент, и другую информацию. Модель генерирует проект видеомонтажа, отвечающий потребностям пользователя, на основе этих текстовых подсказок, обеспечивая высокую степень контроля и разнообразия выходных данных.

4. конкретная реализация видеомонтажа

- Встраивание и обработка видеокадров: видеокадры сначала преобразуются в векторы встраивания с помощью визуального кодера, такого как CLIP или OpenCLIP. Эти векторы вводятся в LLM вместе с векторами вставки текста, и модель обрабатывает эти векторы вставки с помощью механизма самовнушения для создания черновиков для редактирования видео.

- Создание черновиков и постобработка. Черновики, полученные в результате работы модели, включают в себя расположение видеоклипов, сценарии озвучивания и декоративные элементы (например, саундтреки, цифровые изображения людей и т. д.). Эти черновики подвергаются постобработке (например, синтез речи, поиск музыки и т. д.) для создания окончательного видео, пригодного для рендеринга.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...