Bernini - 字节跳动开源的视频生成与编辑统一框架
Bernini是什么
Bernini是字节跳动开源的视频生成与编辑统一框架,采用"先理解,再生成"的协同架构:MLLM Planner深度解析文本指令与视觉输入,DiT Renderer将其转化为高质量连续视频。框架支持精准可控编辑、镜头语言控制、多参考输入及风格迁移,有效解决传统模型语义理解不足导致的画面失控问题。

Bernini的功能特色
- 精准可控编辑:通过一条指令即可改变天气、季节、材质和视觉风格,且能连带调整光照、路面反光、建筑湿润度等环境细节,使变化自然融入原场景。
- 镜头语言控制:支持视角编辑(符合三维透视与空间逻辑)、焦点转移(调整画面关注区域)以及主体动作精准控制(在保留环境与镜头稳定的前提下改变动作)。
- 多参考输入支持:支持图片、视频作为视觉参考,实现指定主体植入、材质替换、风格迁移、图像/视频精准嵌入目标区域(如商场 LED 屏、街头招牌)等操作。
- 多角度参考一致性:可输入同一物体的多张角度参考图,生成连续镜头时保持五官、纹理、褶皱等高度一致,接近世界模型能力。
- 关键帧到连续镜头:给定同一场景的多张关键帧,可生成具有连贯平移镜头的视频片段。
Bernini的核心优势
- 先理解再生成的协同架构:MLLM Planner 深度解析文本指令与视觉输入,DiT Renderer 精准转化为高质量连续视频,从源头解决语义理解偏差导致的画面失控问题。
- 精准可控编辑:支持通过单条指令改变天气、季节、材质和视觉风格,并能连带调整光照、路面反光、建筑湿润度等环境细节,实现自然融入原场景的变化。
- 镜头语言控制:支持符合三维透视的视角编辑、焦点转移以及主体动作精准控制,在保留环境与镜头稳定的前提下改变画面内容。
- 多参考输入支持:支持图片、视频作为视觉参考,实现指定主体植入、材质替换、风格迁移,以及图像/视频精准嵌入目标区域(如商场 LED 屏、街头招牌)。
- 多角度参考一致性:可输入同一物体的多张角度参考图,生成连续镜头时保持五官、纹理、褶皱等高度一致,接近世界模型能力。
- 关键帧到连续镜头:给定同一场景的多张关键帧,可生成具有连贯平移镜头的视频片段,提升创作灵活性。
- SA-3D RoPE 技术:为不同视觉片段添加专属 segment 标记,解决多素材串联时的时空坐标混淆问题,同时保留时空位置关系。
- 开源与性能并重:推理代码及 Bernini-R 模型已基于 Apache 2.0 开源,在字节自建 Arena 评测中表现稳居行业第一梯队,与多款主流闭源模型相比未落下风。
Bernini官网是什么
- プロジェクトのウェブサイト:https://bernini-ai.github.io
- GitHubリポジトリ:https://github.com/bytedance/Bernini
- HuggingFaceモデルライブラリ:https://huggingface.co/ByteDance/Bernini
- arXivテクニカルペーパー:https://arxiv.org/pdf/2605.22344
Bernini的操作步骤
- 環境準備:确保系统满足 Python 3.11.2、CUDA Toolkit 12.4 及 NVIDIA GPU(推荐 Hopper 架构 H100/H800/H200,其他 CUDA GPU 亦可兼容)。
- クローン倉庫スルー
git clone https://github.com/bytedance/Bernini.git bernini && cd bernini拉取官方开源代码。 - 依存関係のインストール実施
pip install -r requirements.txt,核心依赖包括torch==2.5.1+cu124そしてdiffusers==0.35.2そしてaccelerate==0.34.2そしてtransformers==4.57.3. - モデルウェイトのダウンロード:从 Hugging Face 仓库
ByteDance/Bernini获取已开源的 Bernini-R 模型权重文件。 - 可选加速配置:安装 FlashAttention-2(通用 CUDA GPU)或 FlashAttention-3(Hopper 专用)以提升推理速度;多 GPU 场景可安装 Open-VeOmni 实现序列并行。
- 准备输入素材:根据任务类型整理输入,包括文本指令、源视频、参考图像/视频等,用于视频生成或编辑任务。
- 経営推論:调用开源的推理代码,结合输入素材运行视频生成或编辑流程;目前 Bernini-R 渲染器已开放,完整 MLLM Planner 版本即将全面开源。
Bernini的适用人群
- 短视频与影视内容创作者:需要快速生成或编辑高质量视频素材,利用精准可控编辑、天气季节替换、风格迁移等功能降低后期制作成本
- 广告与品牌营销团队:需要将产品、Logo 或指定素材精准植入视频场景(如商场 LED 屏、街头招牌),或批量生成风格统一的广告片
- 影视后期与特效制作人员:依赖镜头语言控制(视角编辑、焦点转移、动作控制)和物理一致性(光照、反光、湿润度)实现专业级画面调整
- 游戏与动画开发者:需要基于关键帧生成连续镜头,或保持角色/道具在多角度镜头中的五官、纹理、褶皱高度一致
- AI 开发者与技术研究者:基于 Apache 2.0 开源协议进行模型微调、二次开发,或探索 MLLM Planner 与 DiT Renderer 的协同架构
- 电商与视觉设计从业者:需要快速替换商品材质、背景环境,或生成多角度一致的产品展示视频
Bernini的常见问题
Q:Bernini 的核心架构是什么?
A:核心由两部分组成:MLLM-based Planner(多模态大语言模型语义规划器)负责深度解析文本指令与视觉输入,在特征空间预测目标语义表示;DiT-based Renderer(扩散 変圧器 渲染器)负责将语义规划转化为高质量、连续稳定的视频画面。
Q:Bernini 目前开源了哪些内容?
A:已开源推理代码与第二阶段模型 Bernini-R,采用 Apache License 2.0 协议。完整版(包含 MLLM Planner)正在代码整理中,预计近期全面开放。
Q:运行 Bernini 需要什么硬件环境?
A:推荐 Python 3.11.2、CUDA Toolkit 12.4 及 NVIDIA GPU,其中 Hopper 架构(H100/H800/H200)为最佳适配,其他 CUDA GPU 亦可兼容运行。
Q:Bernini 支持哪些视频编辑功能?
A:支持天气/季节/材质替换、视觉风格迁移、视角编辑、焦点转移、主体动作控制、指定主体植入、图像/视频精准嵌入目标区域(如商场 LED 屏、街头招牌)等。
© 著作権表示
記事の著作権 AIシェアリングサークル 無断転載はご遠慮ください。
関連記事
コメントはありません




