DiffusionGemma - Google DeepMind 发布的实验性开源文本生成模型

DiffusionGemma是什么

DiffusionGemma 是 Google DeepMind 发布的实验性开源文本生成模型，采用离散文本扩散架构替代传统自回归方式。基于 Gemma 4 的 MoE 骨干（26B 总参数，激活 3.8B），通过块自回归扩散机制并行去噪 256-token 画布，支持长达 256K 的上下文。模型利用双向注意力处理同一块内 token，在代码填充和结构化输出上表现优异，单张 H100 可达 1000+ tokens/秒，比同尺寸自回归模型快约 4 倍，且量化后仅需约 18GB VRAM 即可在消费级显卡运行。支持文本、图像及视频帧输入，以 Apache 2.0 许可发布，兼容 vLLM 等主流推理框架。

DiffusionGemma - Google DeepMind 发布的实验性开源文本生成模型

DiffusionGemma的功能特色

离散文本扩散架构：采用块自回归扩散（block-autoregressive diffusion）机制，先初始化 256 个随机占位 token 的"画布"，通过多轮迭代去噪同时精炼整个文本块，而非传统从左到右逐 token 生成。
双向注意力处理：画布内使用双向注意力，每个 token 可同时关注同一块内其他所有位置，对代码填充、JSON/Markdown 等结构化输出尤为有利。
超长上下文支持：每完成一个 256-token 块后提交至 KV 缓存，再生成下一个块，上下文长度最高支持 256K tokens。
多模态输入理解：支持文本、图像及视频帧输入（最高约 60 秒 @ 1fps），具备视觉问答（VQA）、OCR、图表与文档理解能力。
函数调用与思考模式：支持 Function Calling 工具调用，以及可配置的 Thinking Mode 深度思考模式。
极致推理速度：在单张 NVIDIA H100 上可达 1,000+ tokens/秒，RTX 5090 上约 700+ tokens/秒，相比同尺寸自回归模型快约 4 倍。
低硬件门槛部署：量化后仅需约 18GB VRAM 即可运行，支持 RTX 4090/5090 等消费级显卡，兼容 NVIDIA NVFP4 格式进一步加速。
广泛框架兼容：以 Apache 2.0 开源，原生支持 vLLM、Hugging Face Transformers、SGLang、MLX、llama.cpp（GGUF 量化）及 Unsloth（微调）等生态。

DiffusionGemma的核心优势

推理速度领先：单张 H100 可达 1,000+ tokens/秒，RTX 5090 约 700+ tokens/秒，相比同尺寸自回归模型快约 4 倍，将推理瓶颈从内存带宽转移到计算能力。
本地部署友好：量化后仅需约 18GB VRAM，可在 RTX 4090/5090 等消费级显卡流畅运行，支持 NVFP4 格式在 Blackwell GPU 上进一步加速。
双向上下文感知：画布内采用双向注意力，每个 token 能同时关注同一块内所有位置，在代码填充、JSON/Markdown 结构化输出等需要全局一致性的任务上表现更优。
超长上下文窗口：通过块自回归扩散机制，支持最高 256K tokens 的上下文长度，可处理长文档、视频序列等复杂输入。
多模态理解能力：支持文本、图像及视频帧（最高约 60 秒）输入，具备视觉问答、OCR、图表与文档理解能力。
开源生态完善：以 Apache 2.0 许可发布，原生兼容 vLLM、Hugging Face Transformers、SGLang、MLX、llama.cpp 及 Unsloth 等主流框架，便于集成与二次开发。

DiffusionGemma官网是什么

项目官网：https://developers.googleblog.com/diffusiongemma-the-developer-guide/
HuggingFace模型库：https://huggingface.co/google/diffusiongemma-26B-A4B-it

DiffusionGemma的操作步骤

准备硬件环境：确保具备 NVIDIA GPU（推荐 H100、RTX 4090/5090 等），量化版需约 18GB VRAM；若使用 Blackwell 架构 GPU，可启用 NVFP4 格式进一步加速。
下载模型权重：前往 Hugging Face 官方仓库下载 DiffusionGemma 模型权重（26B 总参数，推理时激活 3.8B）。
选择推理框架：根据场景选择部署工具，如 vLLM（提供 OpenAI 兼容接口，首个原生支持扩散 LLM）、Hugging Face Transformers、SGLang、MLX（Apple Silicon）或 llama.cpp（GGUF 量化版本）。
安装依赖与加载模型：配置对应框架的 Python 环境，加载模型并初始化扩散生成所需的画布（canvas）与去噪参数。
配置生成模式：按需开启 Thinking Mode 深度思考模式、Function Calling 工具调用，或设置结构化输出格式（如 JSON/Markdown）。
输入多模态内容：提供文本提示，或上传图像、视频帧（最高约 60 秒 @ 1fps）进行视觉问答、OCR、文档理解等任务。
执行块自回归生成：模型以 256-token 为一块进行并行去噪，逐块生成并提交至 KV 缓存，最终组合完整输出。
量化优化（可选）：若显存受限，使用社区 GGUF 量化版本或框架内置量化，将显存占用压缩至约 18GB 以内，适配本地消费级显卡。

DiffusionGemma的适用人群

AI 研究者与学术人员：DiffusionGemma 是 Google 定位的实验性模型，适合研究离散文本扩散架构、块自回归生成机制及双向注意力在语言模型中的应用。
追求本地高速推理的开发者：单张 H100 可达 1,000+ tokens/秒，消费级显卡（RTX 4090/5090）也能流畅运行，适合需要低延迟、高吞吐的本地部署场景。
结构化输出与代码工具开发者：双向注意力机制对代码填充、JSON/Markdown 等需要全局一致性的生成任务尤为有利，适合构建 IDE 插件、API 格式化工具等。
多模态应用开发者：支持图像、视频帧及文本输入，具备 VQA、OCR、图表与文档理解能力，适合开发视觉问答、文档解析、视频内容分析等应用。
资源受限的个人开发者与小团队：量化后仅需约 18GB VRAM，以 Apache 2.0 开源，无需昂贵云端算力即可在本地实验和部署。