BREAKTHROUGH · 2026-06

Google DiffusionGemma:扩散模型正在颠覆文本生成的方式

Google扩散模型开源
阅读时间:约 7 分钟

一、当文本生成不再"逐字书写"

2026 年 6 月,Google DeepMind 发布了 DiffusionGemma,一个 26B MoE 的实验性模型,以 Apache 2.0 协议完全开源。它最大的突破在于:文本不再是逐字生成,而是像图像生成那样——先产生模糊草稿,再逐步去噪细化。

这意味着模型每次生成 256 个 token 的完整块,而非传统的从左到右逐一预测。速度提升高达 4 倍——在 H100 上达到 1000 tokens/秒,RTX 5090 上 700+ tokens/秒。对于需要大量文本生成的应用场景来说,这几乎是革命性的。

二、技术剖析:它是如何工作的?

DiffusionGemma 的核心创新在于三个方面:

双向注意力

每个 token 同时关注所有其他 token,而非自回归模型只能看左边。这让模型在代码补全、数学推理、文本填充等需要"全局理解"的任务上表现出色。

MoE 稀疏激活

虽然总参数达 26B,但每次推理只激活 3.8B 参数。量化后仅需约 18GB VRAM,这意味着消费级 GPU 也能运行——RTX 5090 用户可以在本地部署。

Apache 2.0 完全开源

可商用、可修改、无限制。这对于学术研究和商业应用都是巨大利好——不必担心许可费用或使用限制。

三、优势与局限:冷静看待"颠覆"

优势非常明显:速度 4 倍提升、并行生成能力、双向注意力带来的全局理解优势。此外,扩散模型在 数据稀缺场景 中展现出独特优势——最新研究表明,当高质量数据不足时,扩散模型可以通过多轮训练而不发生过拟合,因为任意顺序的生成起到了数据增强的作用。

但局限同样明显:输出质量在复杂推理任务上仍落后于标准自回归模型。最关键的短板是——由于所有 token 同时生成,它 无法在生成过程中调用外部工具(function calling),这使得它在 agentic 场景中受到严重限制。此外,在高 QPS 的云环境中,并行生成的收益会被稀释。

四、更大的图景:扩散 vs 自回归的融合趋势

DiffusionGemma 并非孤立事件。2026 年是 扩散语言模型从学术研究走向实际部署的关键一年

Orthrus双视图框架,冻结 LLM + 轻量扩散头,7.8x 加速,无损推理
FLARE将混合注意力 LLM 转化为扩散模型,同一权重支持两种解码方式
TextLDM单个扩散架构同时处理 生成和理解,迈向统一多模态模型

可以预见,未来的架构不会是"扩散取代自回归",而是二者的融合——同一模型根据任务需求,在快速并行生成和逐步推理之间自由切换。正如 Sebastian Raschka 在 2026 预测中指出的:Transformer 仍将占据主导,但扩散模型正在悄然崛起,二者的边界将越来越模糊。