Google开源DiffusionGemma: 文本扩散架构实现4倍加速生成,颠覆自回归范式

2026年7月2日

6月10日,Google DeepMind正式发布并开源DiffusionGemma,一款采用文本扩散(text diffusion)架构的实验性开源大模型。该模型摒弃了传统大语言模型逐token自回归解码的方式,转而通过并行去噪整个文本块来生成内容,在专用GPU上实现高达4倍的文本生成速度提升。

DiffusionGemma基于Gemma 4的26B-A4B MoE(混合专家)架构,总参数量260亿,激活参数仅38亿。其上下文窗口为256K token,支持140多种语言。在单张NVIDIA H100 GPU上,该模型可达1000+ token/秒的生成速度。模型采用Apache 2.0协议开源,面向研究者和开发者开放。

这一架构创新的核心在于将图像扩散模型中的"从噪声逐步去噪"思路引入文本生成。模型首先生成一段带噪token,然后通过多轮并行迭代逐步精炼为高质量文本。这种方法不仅提升了推理速度,还实现了生成过程中的自我纠错和实时编辑能力,为下一代高效语言模型开辟了全新方向。

数据来源:Google DeepMind官方博客,MarkTechPost

https://www.marktechpost.com/2026/06/10/google-ai-releases-diffusiongemma-a-26b-moe-open-model-using-text-diffusion-for-up-to-4x-faster-generation

Google 英伟达大模型开源 GPU MoE 扩散模型