Bernini - 字节跳动开源的视频生成与编辑统一框架

27.5K 00

Bernini是什么

Bernini是字节跳动开源的视频生成与编辑统一框架，采用"先理解，再生成"的协同架构：MLLM Planner深度解析文本指令与视觉输入，DiT Renderer将其转化为高质量连续视频。框架支持精准可控编辑、镜头语言控制、多参考输入及风格迁移，有效解决传统模型语义理解不足导致的画面失控问题。

先理解再生成的协同架构：MLLM Planner 深度解析文本指令与视觉输入，DiT Renderer 精准转化为高质量连续视频，从源头解决语义理解偏差导致的画面失控问题。
精准可控编辑：支持通过单条指令改变天气、季节、材质和视觉风格，并能连带调整光照、路面反光、建筑湿润度等环境细节，实现自然融入原场景的变化。
镜头语言控制：支持符合三维透视的视角编辑、焦点转移以及主体动作精准控制，在保留环境与镜头稳定的前提下改变画面内容。
多参考输入支持：支持图片、视频作为视觉参考，实现指定主体植入、材质替换、风格迁移，以及图像/视频精准嵌入目标区域（如商场 LED 屏、街头招牌）。
多角度参考一致性：可输入同一物体的多张角度参考图，生成连续镜头时保持五官、纹理、褶皱等高度一致，接近世界模型能力。
关键帧到连续镜头：给定同一场景的多张关键帧，可生成具有连贯平移镜头的视频片段，提升创作灵活性。
SA-3D RoPE 技术：为不同视觉片段添加专属 segment 标记，解决多素材串联时的时空坐标混淆问题，同时保留时空位置关系。
开源与性能并重：推理代码及 Bernini-R 模型已基于 Apache 2.0 开源，在字节自建 Arena 评测中表现稳居行业第一梯队，与多款主流闭源模型相比未落下风。

環境準備：确保系统满足 Python 3.11.2、CUDA Toolkit 12.4 及 NVIDIA GPU（推荐 Hopper 架构 H100/H800/H200，其他 CUDA GPU 亦可兼容）。
クローン倉庫スルー git clone https://github.com/bytedance/Bernini.git bernini && cd bernini 拉取官方开源代码。
依存関係のインストール実施 pip install -r requirements.txt，核心依赖包括 torch==2.5.1+cu124そしてdiffusers==0.35.2そしてaccelerate==0.34.2そしてtransformers==4.57.3.
モデルウェイトのダウンロード：从 Hugging Face 仓库 ByteDance/Bernini 获取已开源的 Bernini-R 模型权重文件。
可选加速配置：安装 FlashAttention-2（通用 CUDA GPU）或 FlashAttention-3（Hopper 专用）以提升推理速度；多 GPU 场景可安装 Open-VeOmni 实现序列并行。
准备输入素材：根据任务类型整理输入，包括文本指令、源视频、参考图像/视频等，用于视频生成或编辑任务。
経営推論：调用开源的推理代码，结合输入素材运行视频生成或编辑流程；目前 Bernini-R 渲染器已开放，完整 MLLM Planner 版本即将全面开源。

短视频与影视内容创作者：需要快速生成或编辑高质量视频素材，利用精准可控编辑、天气季节替换、风格迁移等功能降低后期制作成本
广告与品牌营销团队：需要将产品、Logo 或指定素材精准植入视频场景（如商场 LED 屏、街头招牌），或批量生成风格统一的广告片
影视后期与特效制作人员：依赖镜头语言控制（视角编辑、焦点转移、动作控制）和物理一致性（光照、反光、湿润度）实现专业级画面调整
游戏与动画开发者：需要基于关键帧生成连续镜头，或保持角色/道具在多角度镜头中的五官、纹理、褶皱高度一致
AI 开发者与技术研究者：基于 Apache 2.0 开源协议进行模型微调、二次开发，或探索 MLLM Planner 与 DiT Renderer 的协同架构
电商与视觉设计从业者：需要快速替换商品材质、背景环境，或生成多角度一致的产品展示视频