FunClip: интеллектуальное редактирование видеоконтента в короткометражные фильмы, простое и точное извлечение/обрезание видеоклипов

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

103.4K 00

Общее введение

FunClip - это автоматизированный инструмент для редактирования видео с открытым исходным кодом, разработанный речевой лабораторией TONGYI в Институте Дхармы Alibaba. В инструмент интегрирована модель распознавания речи Paraformer-Large промышленного уровня, которая позволяет точно идентифицировать речевой контент в видео и преобразовывать его в текст. Особенностью FunClip является поддержка интеллектуального редактирования с помощью моделирования большого языка (LLM) и интеграция распознавания диктора для автоматической идентификации различных дикторов. Пользователи могут выбрать интересующие их текстовые фрагменты и экспортировать соответствующие видеоклипы одним щелчком мыши через простой интерфейс. Инструмент поддерживает многосегментное свободное редактирование и может автоматически генерировать полные файлы субтитров SRT и субтитры для целевых сегментов, обеспечивая пользователям простую и удобную обработку видео. Последняя версия поддерживает двуязычное распознавание и предоставляет богатые функции встраивания и экспорта субтитров, являясь мощным и простым в использовании инструментом обработки видео с открытым исходным кодом.

FunClip Optimised - Private-ASR

Private-ASR На основе проектов с открытым исходным кодом FunClip Модифицирован для интеграции автоматического распознавания речи (ASR), разделения дикторов, редактирования субтитров SRT и резюмирования на основе LLM. В проекте используется Gradio Обеспечивает интуитивно понятный и простой в использовании пользовательский интерфейс.

Список функций

Точное распознавание речи: интеграция модели Paraformer-Large с открытым исходным кодом от Alibaba, поддерживающей распознавание китайской и английской речи.
LLM Intelligent Clip: поддерживает интеллектуальный анализ контента и автоматическое определение точек клипа с помощью большой языковой модели
Распознавание дикторов: интеграция модели распознавания дикторов CAM++, которая может автоматически распознавать идентичность различных дикторов
Настройка горячих слов: поддержка функции настройки горячих слов SeACo-Paraformer для повышения точности распознавания конкретных слов.
Редактирование нескольких сегментов: поддержка свободного выбора нескольких сегментов текста для пакетного редактирования
Генерация субтитров: автоматическая генерация субтитров SRT к полному видео и субтитров к целевому клипу.
Двуязычная поддержка: поддержка распознавания и редактирования видео на китайском и английском языках
Локальное развертывание: полностью открытый исходный код, поддержка локального развертывания, защита конфиденциальности и безопасности данных
Дружественный интерфейс: основан на разработке фреймворка Gradio, обеспечивающего простой и интуитивно понятный веб-интерфейс

Использование помощи

1. Установка и развертывание

Установка базовой среды

Клонируйте репозиторий кода:

git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip

Установите зависимости Python:

pip install -r ./requirements.txt

Дополнительная установка функций (для встроенных субтитров)

Чтобы воспользоваться функцией вставки субтитров, необходимо установить ffmpeg и imagemagick:

Ubuntu:

apt-get -y update && apt-get -y install ffmpeg imagemagick
sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml

MacOS:

brew install imagemagick
sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml

Окна:

Загрузите и установите imagemagick с официального сайта: https://imagemagick.org/script/download.php#windows.
Найдите путь установки Python и изменитеsite-packages\moviepy\config_defaults.pyпопал в точкуIMAGEMAGICK_BINARYПуть установки imagemagick
Загрузите файл шрифта:

wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ClipVideo/STHeitiMedium.ttc -O font/STHeitiMedium.ttc

2. Методы использования

A. Использование локальной службы Gradio

Начните обслуживание:

python funclip/launch.py
# 使用 -l en 参数支持英文识别
# 使用 -p xxx 设置端口号
# 使用 -s True 开启公共访问

интервьюlocalhost:7860Выполните следующие действия:

Шаг 1: Загрузите видеофайлы
Шаг 2: Скопируйте нужный текстовый клип в область "Текст для клипа".
Шаг 3: Настройте параметры субтитров по мере необходимости
Шаг 4: Нажмите "Клип" или "Клип и создание субтитров" для редактирования.

B. LLM Smart Clips

После завершения распознавания выберите большую языковую модель и настройте apikey
Нажмите на кнопку "LLM Inference", и система автоматически объединит субтитры видео с заданными репликами.
Нажмите кнопку "AI Clip", чтобы автоматически извлекать временные метки для редактирования на основе результатов работы большой языковой модели.
Выходные данные большой языковой модели можно оптимизировать, изменив слова подсказки

C. Использование командной строки

Распознавание речи:

python funclip/videoclipper.py --stage 1 \
--file examples/video.mp4 \
--output_dir ./output

Видеоклип:

python funclip/videoclipper.py --stage 2 \
--file examples/video.mp4 \
--output_dir ./output \
--dest_text '待剪辑文本' \
--start_ost 0 \
--end_ost 100 \
--output_file './output/res.mp4'

Кроме того, пользователи могут познакомиться с FunClip на следующих онлайн-платформах:

Пространство ModelScope:FunClip@Modelscope Space
Пространство "Обнимая лицо":FunClip@HuggingFace Space

Если у вас возникнут проблемы с использованием, вы можете получить поддержку сообщества через группу pinning или группу weibo, созданную проектом.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Speech to Text # AI аудио/видеоредактор

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

MIDI-3D: инструмент с открытым исходным кодом для быстрой генерации многообъектных 3D-сцен из одного изображения

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Текст и изображение в 3D

12 месяцев назад

057.7K

Porkybank: управление ежедневным бюджетом на основе искусственного интеллекта для легкого отслеживания ежедневного бюджета

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # AI Помощник по повышению эффективности жизни

1 год назад

045.4K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - израильская модель рассуждений с открытым исходным кодом от AI21 Labs

Последние ресурсы по искусственному интеллекту

5 месяцев назад

026.6K

Promplify: эффективный инструмент для оптимизации и управления словами подсказок ИИ

Последние ресурсы по искусственному интеллекту Помощники # PROMPTS

1 год назад

046.2K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

FunClip: интеллектуальное редактирование видеоконтента в короткометражные фильмы, простое и точное извлечение/обрезание видеоклипов

Общее введение

Список функций

Использование помощи

1. Установка и развертывание

Установка базовой среды

Дополнительная установка функций (для встроенных субтитров)

2. Методы использования

A. Использование локальной службы Gradio

B. LLM Smart Clips

C. Использование командной строки

Dify-WebUI: клиент интеллектуального диалога для настольных компьютеров, основанный на API Dify, обеспечивающий диалоговые возможности ИИ корпоративного уровня

Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Похожие статьи

MIDI-3D: инструмент с открытым исходным кодом для быстрой генерации многообъектных 3D-сцен из одного изображения

Porkybank: управление ежедневным бюджетом на основе искусственного интеллекта для легкого отслеживания ежедневного бюджета

Jamba Reasoning 3B - израильская модель рассуждений с открытым исходным кодом от AI21 Labs

Promplify: эффективный инструмент для оптимизации и управления словами подсказок ИИ

Нет комментариев

Последние коллекции

Последние статьи

FunClip: интеллектуальное редактирование видеоконтента в короткометражные фильмы, простое и точное извлечение/обрезание видеоклипов

Общее введение

Список функций

Использование помощи

1. Установка и развертывание

Установка базовой среды

Дополнительная установка функций (для встроенных субтитров)

2. Методы использования

A. Использование локальной службы Gradio

B. LLM Smart Clips

C. Использование командной строки

Dify-WebUI: клиент интеллектуального диалога для настольных компьютеров, основанный на API Dify, обеспечивающий диалоговые возможности ИИ корпоративного уровня

Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Похожие статьи

MIDI-3D: инструмент с открытым исходным кодом для быстрой генерации многообъектных 3D-сцен из одного изображения

Porkybank: управление ежедневным бюджетом на основе искусственного интеллекта для легкого отслеживания ежедневного бюджета

Jamba Reasoning 3B - израильская модель рассуждений с открытым исходным кодом от AI21 Labs

Promplify: эффективный инструмент для оптимизации и управления словами подсказок ИИ

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи