FunClip: интеллектуальное редактирование видеоконтента в короткометражные фильмы, простое и точное извлечение/обрезание видеоклипов
Общее введение
FunClip - это автоматизированный инструмент для редактирования видео с открытым исходным кодом, разработанный речевой лабораторией TONGYI в Институте Дхармы Alibaba. В инструмент интегрирована модель распознавания речи Paraformer-Large промышленного уровня, которая позволяет точно идентифицировать речевой контент в видео и преобразовывать его в текст. Особенностью FunClip является поддержка интеллектуального редактирования с помощью моделирования большого языка (LLM) и интеграция распознавания диктора для автоматической идентификации различных дикторов. Пользователи могут выбрать интересующие их текстовые фрагменты и экспортировать соответствующие видеоклипы одним щелчком мыши через простой интерфейс. Инструмент поддерживает многосегментное свободное редактирование и может автоматически генерировать полные файлы субтитров SRT и субтитры для целевых сегментов, обеспечивая пользователям простую и удобную обработку видео. Последняя версия поддерживает двуязычное распознавание и предоставляет богатые функции встраивания и экспорта субтитров, являясь мощным и простым в использовании инструментом обработки видео с открытым исходным кодом.

FunClip Optimised - Private-ASR
Private-ASR На основе проектов с открытым исходным кодом FunClip Модифицирован для интеграции автоматического распознавания речи (ASR), разделения дикторов, редактирования субтитров SRT и резюмирования на основе LLM. В проекте используется Gradio Обеспечивает интуитивно понятный и простой в использовании пользовательский интерфейс.

Список функций
- Точное распознавание речи: интеграция модели Paraformer-Large с открытым исходным кодом от Alibaba, поддерживающей распознавание китайской и английской речи.
- LLM Intelligent Clip: поддерживает интеллектуальный анализ контента и автоматическое определение точек клипа с помощью большой языковой модели
- Распознавание дикторов: интеграция модели распознавания дикторов CAM++, которая может автоматически распознавать идентичность различных дикторов
- Настройка горячих слов: поддержка функции настройки горячих слов SeACo-Paraformer для повышения точности распознавания конкретных слов.
- Редактирование нескольких сегментов: поддержка свободного выбора нескольких сегментов текста для пакетного редактирования
- Генерация субтитров: автоматическая генерация субтитров SRT к полному видео и субтитров к целевому клипу.
- Двуязычная поддержка: поддержка распознавания и редактирования видео на китайском и английском языках
- Локальное развертывание: полностью открытый исходный код, поддержка локального развертывания, защита конфиденциальности и безопасности данных
- Дружественный интерфейс: основан на разработке фреймворка Gradio, обеспечивающего простой и интуитивно понятный веб-интерфейс
Использование помощи
1. Установка и развертывание
Установка базовой среды
- Клонируйте репозиторий кода:
git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip
- Установите зависимости Python:
pip install -r ./requirements.txt
Дополнительная установка функций (для встроенных субтитров)
Чтобы воспользоваться функцией вставки субтитров, необходимо установить ffmpeg и imagemagick:
- Ubuntu:
apt-get -y update && apt-get -y install ffmpeg imagemagick
sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml
- MacOS:
brew install imagemagick
sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml
- Окна:
- Загрузите и установите imagemagick с официального сайта: https://imagemagick.org/script/download.php#windows.
- Найдите путь установки Python и измените
site-packages\moviepy\config_defaults.py
попал в точкуIMAGEMAGICK_BINARY
Путь установки imagemagick - Загрузите файл шрифта:
wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ClipVideo/STHeitiMedium.ttc -O font/STHeitiMedium.ttc
2. Методы использования
A. Использование локальной службы Gradio
- Начните обслуживание:
python funclip/launch.py
# 使用 -l en 参数支持英文识别
# 使用 -p xxx 设置端口号
# 使用 -s True 开启公共访问
- интервью
localhost:7860
Выполните следующие действия:
- Шаг 1: Загрузите видеофайлы
- Шаг 2: Скопируйте нужный текстовый клип в область "Текст для клипа".
- Шаг 3: Настройте параметры субтитров по мере необходимости
- Шаг 4: Нажмите "Клип" или "Клип и создание субтитров" для редактирования.
B. LLM Smart Clips
- После завершения распознавания выберите большую языковую модель и настройте apikey
- Нажмите на кнопку "LLM Inference", и система автоматически объединит субтитры видео с заданными репликами.
- Нажмите кнопку "AI Clip", чтобы автоматически извлекать временные метки для редактирования на основе результатов работы большой языковой модели.
- Выходные данные большой языковой модели можно оптимизировать, изменив слова подсказки
C. Использование командной строки
- Распознавание речи:
python funclip/videoclipper.py --stage 1 \
--file examples/video.mp4 \
--output_dir ./output
- Видеоклип:
python funclip/videoclipper.py --stage 2 \
--file examples/video.mp4 \
--output_dir ./output \
--dest_text '待剪辑文本' \
--start_ost 0 \
--end_ost 100 \
--output_file './output/res.mp4'
Кроме того, пользователи могут познакомиться с FunClip на следующих онлайн-платформах:
- Пространство ModelScope:FunClip@Modelscope Space
- Пространство "Обнимая лицо":FunClip@HuggingFace Space
Если у вас возникнут проблемы с использованием, вы можете получить поддержку сообщества через группу pinning или группу weibo, созданную проектом.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...