CutClaw - 北交大联合湾大开源的多智能体长视频编辑框架
CutClaw是什么
CutClaw 是开源的自主多智能体长视频编辑框架,由北京交通大学、大湾区大学与腾讯 ARC Lab 联合研发。通过"自底向上多模态解构"技术,将数小时原始素材结构化,采用 Playwriter(编剧)、Editor(编辑)、Reviewer(审核)三智能体协作流程,实现音乐驱动的自动化剪辑。只需输入文本指令,可将长视频一键剪辑为与音乐节拍精准对齐的短视频,同时保持叙事连贯性与视觉质量。

CutClaw的功能特色
- 一键多模态解构:自动将数小时视频/音频转换为结构化、可搜索的语义单元(镜头级字幕),突破 MLLM 上下文限制。
- 指令驱动编辑:仅需一条文本指令即可控制剪辑风格,支持快节奏角色蒙太奇或慢节奏情感叙事。
- 音乐感知同步:提取音乐节拍与能量信号,构建节奏感知剪辑点,实现专业级"踩点"效果(误差 ≤0.1 秒)。
- 智能自动裁剪:内容感知裁剪自动识别核心主体,自适应调整画幅比例(支持 9:16、16:9、1:1 等社交平台规格)。
- 多模型后端支持:通过 LiteLLM 网关支持 Gemini-3、Qwen3.5、GPT-5.3、MiniMax-2.7、Kimi-2.5、Claude-4.5 等主流模型。
CutClaw的核心优势
- Архитектура взаимодействия с несколькими интеллектуальными организмами:采用 Playwriter(编剧)、Editor(编辑)、Reviewer(审核)三智能体闭环协作,模拟专业后期团队工作流,通过 ReAct 迭代搜索与多准则验证确保剪辑质量。
- 音乐驱动精准同步:提取音乐节拍、能量与音高信号,实现剪辑点与音乐下拍、能量转折点的精准对齐(误差 ≤0.1 秒),生成专业级"踩点"效果。
- 长视频上下文突破:通过"自底向上多模态解构"技术,将数小时素材抽象为结构化语义单元(镜头→场景),突破多模态大模型上下文长度限制,支持小时级原始素材处理。
- 零门槛指令控制:仅需一条文本指令(如"快节奏赛博朋克城市夜景")即可驱动剪辑风格,无需掌握 Premiere/FCP 等专业软件,实现"所想即所得"。
- 内容感知智能裁剪:自动识别画面核心主体,自适应调整画幅比例(支持 9:16、16:9、1:1 等),确保主角出镜率与构图美感,一键适配各社交平台规格。
CutClaw官网是什么
- Репозиторий GitHub:https://github.com/GVCLab/CutClaw
- Технический документ arXiv:https://arxiv.org/pdf/2603.29664
使用CutClaw的操作步骤
- Установка среды:克隆仓库,创建 Python 3.12 环境,安装依赖(建议配置 GPU 加速的 Decord/NVDEC 解码)。
- 文件准备:将视频(.mp4/.mkv)放入
resource/video/,音频(.mp3/.wav)放入resource/audio/,可选添加字幕文件(.srt)跳过 ASR。 - Интерфейс запуска: Беги
python ui.py,浏览器访问http://localhost:8501. - Конфигурация параметров:在 UI 中选择视频/音频文件,输入编辑指令、主角名称、目标成片时长、镜头长度等参数。
- 执行剪辑:点击 Run 启动三智能体流水线,等待 Pipeline Complete 后,选择画幅比例(9:16/16:9/1:1)渲染成片。
CutClaw的适用人群
- Vlog 创作者:需要将数小时旅拍素材快速剪辑为音乐卡点短视频。
- 影视二创剪辑师:基于电影/剧集长视频制作角色混剪、情感向短片。
- 短视频运营:批量生产适配抖音、小红书、Instagram 等平台的多画幅内容。
- Разработчики приложений искусственного интеллекта:研究多智能体协作、音乐驱动视频生成的技术从业者。
- 零剪辑基础用户:只需文字描述即可生成专业级剪辑,无需学习 Premiere/FCP。
CutClaw的常见问题 FAQ
Q:第一次运行为什么特别慢?
A:首次处理视频时需执行镜头检测、字幕生成、ASR、场景分析等预处理,属一次性成本;后续基于同素材重新剪辑会直接读取缓存,速度大幅提升。
A:首次处理视频时需执行镜头检测、字幕生成、ASR、场景分析等预处理,属一次性成本;后续基于同素材重新剪辑会直接读取缓存,速度大幅提升。
Q:支持哪些视频格式?
A:支持 .mp4、.mkv 等常见格式,编码建议使用 libx264 以确保兼容性;音频支持 .mp3、.wav。
A:支持 .mp4、.mkv 等常见格式,编码建议使用 libx264 以确保兼容性;音频支持 .mp3、.wav。
Q:可以离线使用吗?
A:可以,只要配置本地模型(如 whisper_cpp 用于 ASR,本地 Vision 模型用于镜头理解),无需联网即可运行。
A:可以,只要配置本地模型(如 whisper_cpp 用于 ASR,本地 Vision 模型用于镜头理解),无需联网即可运行。
Q:剪辑结果可以商用吗?
A:需遵循输入素材的版权规定,CutClaw 本身为 Apache 风格开源协议,生成内容的版权归属请参照原始素材授权条款。
A:需遵循输入素材的版权规定,CutClaw 本身为 Apache 风格开源协议,生成内容的版权归属请参照原始素材授权条款。
Q:未来会支持哪些新功能?
A:路线图包括:集成 ARC-Chapter 降低长视频处理成本、增加低成本模式(仅读取相关片段而非全片)、对口型+视觉混剪、Claude Code MCP 支持、在线 Web 服务等
A:路线图包括:集成 ARC-Chapter 降低长视频处理成本、增加低成本模式(仅读取相关片段而非全片)、对口型+视觉混剪、Claude Code MCP 支持、在线 Web 服务等
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




