FunClip: интеллектуальное редактирование видеоконтента в короткометражные фильмы, простое и точное извлечение/обрезание видеоклипов

Общее введение

FunClip - это автоматизированный инструмент для редактирования видео с открытым исходным кодом, разработанный речевой лабораторией TONGYI в Институте Дхармы Alibaba. В инструмент интегрирована модель распознавания речи Paraformer-Large промышленного уровня, которая позволяет точно идентифицировать речевой контент в видео и преобразовывать его в текст. Особенностью FunClip является поддержка интеллектуального редактирования с помощью моделирования большого языка (LLM) и интеграция распознавания диктора для автоматической идентификации различных дикторов. Пользователи могут выбрать интересующие их текстовые фрагменты и экспортировать соответствующие видеоклипы одним щелчком мыши через простой интерфейс. Инструмент поддерживает многосегментное свободное редактирование и может автоматически генерировать полные файлы субтитров SRT и субтитры для целевых сегментов, обеспечивая пользователям простую и удобную обработку видео. Последняя версия поддерживает двуязычное распознавание и предоставляет богатые функции встраивания и экспорта субтитров, являясь мощным и простым в использовании инструментом обработки видео с открытым исходным кодом.

FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

 

FunClip Optimised - Private-ASR

Private-ASR На основе проектов с открытым исходным кодом FunClip Модифицирован для интеграции автоматического распознавания речи (ASR), разделения дикторов, редактирования субтитров SRT и резюмирования на основе LLM. В проекте используется Gradio Обеспечивает интуитивно понятный и простой в использовании пользовательский интерфейс.

FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

 

Список функций

  • Точное распознавание речи: интеграция модели Paraformer-Large с открытым исходным кодом от Alibaba, поддерживающей распознавание китайской и английской речи.
  • LLM Intelligent Clip: поддерживает интеллектуальный анализ контента и автоматическое определение точек клипа с помощью большой языковой модели
  • Распознавание дикторов: интеграция модели распознавания дикторов CAM++, которая может автоматически распознавать идентичность различных дикторов
  • Настройка горячих слов: поддержка функции настройки горячих слов SeACo-Paraformer для повышения точности распознавания конкретных слов.
  • Редактирование нескольких сегментов: поддержка свободного выбора нескольких сегментов текста для пакетного редактирования
  • Генерация субтитров: автоматическая генерация субтитров SRT к полному видео и субтитров к целевому клипу.
  • Двуязычная поддержка: поддержка распознавания и редактирования видео на китайском и английском языках
  • Локальное развертывание: полностью открытый исходный код, поддержка локального развертывания, защита конфиденциальности и безопасности данных
  • Дружественный интерфейс: основан на разработке фреймворка Gradio, обеспечивающего простой и интуитивно понятный веб-интерфейс

 

Использование помощи

1. Установка и развертывание

Установка базовой среды

  1. Клонируйте репозиторий кода:
git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip
  1. Установите зависимости Python:
pip install -r ./requirements.txt

Дополнительная установка функций (для встроенных субтитров)

Чтобы воспользоваться функцией вставки субтитров, необходимо установить ffmpeg и imagemagick:

  • Ubuntu:
apt-get -y update && apt-get -y install ffmpeg imagemagick
sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml
  • MacOS:
brew install imagemagick
sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml
  • Окна:
  1. Загрузите и установите imagemagick с официального сайта: https://imagemagick.org/script/download.php#windows.
  2. Найдите путь установки Python и изменитеsite-packages\moviepy\config_defaults.pyпопал в точкуIMAGEMAGICK_BINARYПуть установки imagemagick
  3. Загрузите файл шрифта:
wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ClipVideo/STHeitiMedium.ttc -O font/STHeitiMedium.ttc

2. Методы использования

A. Использование локальной службы Gradio

  1. Начните обслуживание:
python funclip/launch.py
# 使用 -l en 参数支持英文识别
# 使用 -p xxx 设置端口号
# 使用 -s True 开启公共访问
  1. интервьюlocalhost:7860Выполните следующие действия:
  • Шаг 1: Загрузите видеофайлы
  • Шаг 2: Скопируйте нужный текстовый клип в область "Текст для клипа".
  • Шаг 3: Настройте параметры субтитров по мере необходимости
  • Шаг 4: Нажмите "Клип" или "Клип и создание субтитров" для редактирования.

B. LLM Smart Clips

  1. После завершения распознавания выберите большую языковую модель и настройте apikey
  2. Нажмите на кнопку "LLM Inference", и система автоматически объединит субтитры видео с заданными репликами.
  3. Нажмите кнопку "AI Clip", чтобы автоматически извлекать временные метки для редактирования на основе результатов работы большой языковой модели.
  4. Выходные данные большой языковой модели можно оптимизировать, изменив слова подсказки

C. Использование командной строки

  1. Распознавание речи:
python funclip/videoclipper.py --stage 1 \
--file examples/video.mp4 \
--output_dir ./output
  1. Видеоклип:
python funclip/videoclipper.py --stage 2 \
--file examples/video.mp4 \
--output_dir ./output \
--dest_text '待剪辑文本' \
--start_ost 0 \
--end_ost 100 \
--output_file './output/res.mp4'

Кроме того, пользователи могут познакомиться с FunClip на следующих онлайн-платформах:

Если у вас возникнут проблемы с использованием, вы можете получить поддержку сообщества через группу pinning или группу weibo, созданную проектом.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...