CutClaw - 北交大联合湾大开源的多智能体长视频编辑框架

Последние ресурсы по искусственному интеллектуОпубликовано 12 часов назад Круг обмена ИИ

1.6K 00

CutClaw是什么

CutClaw 是开源的自主多智能体长视频编辑框架，由北京交通大学、大湾区大学与腾讯 ARC Lab 联合研发。通过"自底向上多模态解构"技术，将数小时原始素材结构化，采用 Playwriter（编剧）、Editor（编辑）、Reviewer（审核）三智能体协作流程，实现音乐驱动的自动化剪辑。只需输入文本指令，可将长视频一键剪辑为与音乐节拍精准对齐的短视频，同时保持叙事连贯性与视觉质量。

CutClaw的功能特色

一键多模态解构：自动将数小时视频/音频转换为结构化、可搜索的语义单元（镜头级字幕），突破 MLLM 上下文限制。
指令驱动编辑：仅需一条文本指令即可控制剪辑风格，支持快节奏角色蒙太奇或慢节奏情感叙事。
音乐感知同步：提取音乐节拍与能量信号，构建节奏感知剪辑点，实现专业级"踩点"效果（误差 ≤0.1 秒）。
智能自动裁剪：内容感知裁剪自动识别核心主体，自适应调整画幅比例（支持 9:16、16:9、1:1 等社交平台规格）。
多模型后端支持：通过 LiteLLM 网关支持 Gemini-3、Qwen3.5、GPT-5.3、MiniMax-2.7、Kimi-2.5、Claude-4.5 等主流模型。

CutClaw的核心优势

Архитектура взаимодействия с несколькими интеллектуальными организмами：采用 Playwriter（编剧）、Editor（编辑）、Reviewer（审核）三智能体闭环协作，模拟专业后期团队工作流，通过 ReAct 迭代搜索与多准则验证确保剪辑质量。
音乐驱动精准同步：提取音乐节拍、能量与音高信号，实现剪辑点与音乐下拍、能量转折点的精准对齐（误差 ≤0.1 秒），生成专业级"踩点"效果。
长视频上下文突破：通过"自底向上多模态解构"技术，将数小时素材抽象为结构化语义单元（镜头→场景），突破多模态大模型上下文长度限制，支持小时级原始素材处理。
零门槛指令控制：仅需一条文本指令（如"快节奏赛博朋克城市夜景"）即可驱动剪辑风格，无需掌握 Premiere/FCP 等专业软件，实现"所想即所得"。
内容感知智能裁剪：自动识别画面核心主体，自适应调整画幅比例（支持 9:16、16:9、1:1 等），确保主角出镜率与构图美感，一键适配各社交平台规格。

CutClaw官网是什么

Репозиторий GitHub：https://github.com/GVCLab/CutClaw
Технический документ arXiv：https://arxiv.org/pdf/2603.29664

使用CutClaw的操作步骤

Установка среды：克隆仓库，创建 Python 3.12 环境，安装依赖（建议配置 GPU 加速的 Decord/NVDEC 解码）。
文件准备：将视频（.mp4/.mkv）放入 resource/video/，音频（.mp3/.wav）放入 resource/audio/，可选添加字幕文件（.srt）跳过 ASR。
Интерфейс запуска: Беги python ui.py，浏览器访问 http://localhost:8501.
Конфигурация параметров：在 UI 中选择视频/音频文件，输入编辑指令、主角名称、目标成片时长、镜头长度等参数。
执行剪辑：点击 Run 启动三智能体流水线，等待 Pipeline Complete 后，选择画幅比例（9:16/16:9/1:1）渲染成片。