BREAKTHROUGH · 2026-06

Google DiffusionGemma：扩散模型正在颠覆文本生成的方式

Google扩散模型开源

 阅读时间：约 7 分钟 

一、当文本生成不再"逐字书写"

2026 年 6 月，Google DeepMind 发布了 DiffusionGemma，一个 26B MoE 的实验性模型，以 Apache 2.0 协议完全开源。它最大的突破在于：文本不再是逐字生成，而是像图像生成那样——先产生模糊草稿，再逐步去噪细化。

这意味着模型每次生成 256 个 token 的完整块，而非传统的从左到右逐一预测。速度提升高达 4 倍——在 H100 上达到 1000 tokens/秒，RTX 5090 上 700+ tokens/秒。对于需要大量文本生成的应用场景来说，这几乎是革命性的。

二、技术剖析：它是如何工作的？

DiffusionGemma 的核心创新在于三个方面：

双向注意力

每个 token 同时关注所有其他 token，而非自回归模型只能看左边。这让模型在代码补全、数学推理、文本填充等需要"全局理解"的任务上表现出色。

MoE 稀疏激活

虽然总参数达 26B，但每次推理只激活 3.8B 参数。量化后仅需约 18GB VRAM，这意味着消费级 GPU 也能运行——RTX 5090 用户可以在本地部署。

Apache 2.0 完全开源

可商用、可修改、无限制。这对于学术研究和商业应用都是巨大利好——不必担心许可费用或使用限制。

三、优势与局限：冷静看待"颠覆"

优势非常明显：速度 4 倍提升、并行生成能力、双向注意力带来的全局理解优势。此外，扩散模型在 数据稀缺场景 中展现出独特优势——最新研究表明，当高质量数据不足时，扩散模型可以通过多轮训练而不发生过拟合，因为任意顺序的生成起到了数据增强的作用。

但局限同样明显：输出质量在复杂推理任务上仍落后于标准自回归模型。最关键的短板是——由于所有 token 同时生成，它 无法在生成过程中调用外部工具（function calling），这使得它在 agentic 场景中受到严重限制。此外，在高 QPS 的云环境中，并行生成的收益会被稀释。

四、更大的图景：扩散 vs 自回归的融合趋势

DiffusionGemma 并非孤立事件。2026 年是 扩散语言模型从学术研究走向实际部署的关键一年：

Orthrus	双视图框架，冻结 LLM + 轻量扩散头，7.8x 加速，无损推理
FLARE	将混合注意力 LLM 转化为扩散模型，同一权重支持两种解码方式
TextLDM	单个扩散架构同时处理生成和理解，迈向统一多模态模型

可以预见，未来的架构不会是"扩散取代自回归"，而是二者的融合——同一模型根据任务需求，在快速并行生成和逐步推理之间自由切换。正如 Sebastian Raschka 在 2026 预测中指出的：Transformer 仍将占据主导，但扩散模型正在悄然崛起，二者的边界将越来越模糊。