CutClaw - 北交大联合湾大开源的多智能体长视频编辑框架

堆友AI

CutClaw是什么

CutClaw 是开源的自主多智能体长视频编辑框架,由北京交通大学、大湾区大学与腾讯 ARC Lab 联合研发。通过"自底向上多模态解构"技术,将数小时原始素材结构化,采用 Playwriter(编剧)、Editor(编辑)、Reviewer(审核)三智能体协作流程,实现音乐驱动的自动化剪辑。只需输入文本指令,可将长视频一键剪辑为与音乐节拍精准对齐的短视频,同时保持叙事连贯性与视觉质量。
CutClaw - 北交大联合湾大开源的多智能体长视频编辑框架

CutClaw的功能特色

  • 一键多模态解构:自动将数小时视频/音频转换为结构化、可搜索的语义单元(镜头级字幕),突破 MLLM 上下文限制。
  • 指令驱动编辑:仅需一条文本指令即可控制剪辑风格,支持快节奏角色蒙太奇或慢节奏情感叙事。
  • 音乐感知同步:提取音乐节拍与能量信号,构建节奏感知剪辑点,实现专业级"踩点"效果(误差 ≤0.1 秒)。
  • 智能自动裁剪:内容感知裁剪自动识别核心主体,自适应调整画幅比例(支持 9:16、16:9、1:1 等社交平台规格)。
  • 多模型后端支持:通过 LiteLLM 网关支持 Gemini-3、Qwen3.5、GPT-5.3、MiniMax-2.7、Kimi-2.5、Claude-4.5 等主流模型。

CutClaw的核心优势

  • マルチインテリジェント・ボディ・コラボレーション・アーキテクチャ:采用 Playwriter(编剧)、Editor(编辑)、Reviewer(审核)三智能体闭环协作,模拟专业后期团队工作流,通过 リ・アクト 迭代搜索与多准则验证确保剪辑质量。
  • 音乐驱动精准同步:提取音乐节拍、能量与音高信号,实现剪辑点与音乐下拍、能量转折点的精准对齐(误差 ≤0.1 秒),生成专业级"踩点"效果。
  • 长视频上下文突破:通过"自底向上多模态解构"技术,将数小时素材抽象为结构化语义单元(镜头→场景),突破多模态大模型上下文长度限制,支持小时级原始素材处理。
  • 零门槛指令控制:仅需一条文本指令(如"快节奏赛博朋克城市夜景")即可驱动剪辑风格,无需掌握 Premiere/FCP 等专业软件,实现"所想即所得"。
  • 内容感知智能裁剪:自动识别画面核心主体,自适应调整画幅比例(支持 9:16、16:9、1:1 等),确保主角出镜率与构图美感,一键适配各社交平台规格。

CutClaw官网是什么

  • GitHubリポジトリ:https://github.com/GVCLab/CutClaw
  • arXivテクニカルペーパー:https://arxiv.org/pdf/2603.29664

使用CutClaw的操作步骤

  • 環境インストール:克隆仓库,创建 Python 3.12 环境,安装依赖(建议配置 GPU 加速的 Decord/NVDEC 解码)。
  • 文件准备:将视频(.mp4/.mkv)放入 resource/video/,音频(.mp3/.wav)放入 resource/audio/,可选添加字幕文件(.srt)跳过 ASR。
  • 起動インターフェース走る python ui.py,浏览器访问 http://localhost:8501.
  • パラメータ設定:在 UI 中选择视频/音频文件,输入编辑指令、主角名称、目标成片时长、镜头长度等参数。
  • 执行剪辑:点击 Run 启动三智能体流水线,等待 Pipeline Complete 后,选择画幅比例(9:16/16:9/1:1)渲染成片。

CutClaw的适用人群

  • Vlog 创作者:需要将数小时旅拍素材快速剪辑为音乐卡点短视频。
  • 影视二创剪辑师:基于电影/剧集长视频制作角色混剪、情感向短片。
  • 短视频运营:批量生产适配抖音、小红书、Instagram 等平台的多画幅内容。
  • AIアプリケーション開発者:研究多智能体协作、音乐驱动视频生成的技术从业者。
  • 零剪辑基础用户:只需文字描述即可生成专业级剪辑,无需学习 Premiere/FCP。

CutClaw的常见问题 FAQ

Q:CutClaw 是完全免费的吗?
A:代码开源免费,但调用云端大模型 API(如 GPT-5.3、Claude-4.5)需自行承担 トークン 费用,也可使用本地 ウィスパー 等模型降低成本。


Q:第一次运行为什么特别慢?
A:首次处理视频时需执行镜头检测、字幕生成、ASR、场景分析等预处理,属一次性成本;后续基于同素材重新剪辑会直接读取缓存,速度大幅提升。


Q:支持哪些视频格式?
A:支持 .mp4、.mkv 等常见格式,编码建议使用 libx264 以确保兼容性;音频支持 .mp3、.wav。


Q:可以离线使用吗?
A:可以,只要配置本地模型(如 whisper_cpp 用于 ASR,本地 Vision 模型用于镜头理解),无需联网即可运行。


Q:剪辑结果可以商用吗?
A:需遵循输入素材的版权规定,CutClaw 本身为 Apache 风格开源协议,生成内容的版权归属请参照原始素材授权条款。


Q:未来会支持哪些新功能?
A:路线图包括:集成 ARC-Chapter 降低长视频处理成本、增加低成本模式(仅读取相关片段而非全片)、对口型+视觉混剪、Claude Code エムシーピー 支持、在线 Web 服务等
© 著作権表示

関連記事

コメントなし

コメントに参加するにはログインが必要です!
今すぐログイン
なし
コメントはありません