Google最新开源的生成式人工智能模型 Gemma 3,具备视觉-语言理解、长上下文处理能力,以及更强的多语言支持能力。

一篇博客文章中,Google DeepMind 和 AI Studio 团队介绍了 Gemma 3 的新特性。该模型还带来了 KV-cache 内存优化、新的分词器,并在性能与图像编码分辨率方面实现了提升。

Gemma 3 技术报告总结了上述新功能和能力。新的视觉-语言理解能力体现在模型(参数规模分别为 4B、12B 和 27B)采用自定义的 Sigmoid 损失函数进行语言-图像预训练(SigLIP)视觉编码器,使模型能理解图像输入。该编码器以 896x896 的固定方形图像为处理对象,为了适应不同长宽比或高分辨率的图像,引入了“Pan & Scan”(平移与扫描)算法。这种算法会自适应裁剪图像,将每个裁剪后的图像调整为 896x896 大小后再进行编码。该方法可提升模型在处理非方形图像、高分辨率图像以及图像中文字识别等任务中的表现。此外,Gemma 3 将图像表示为由 MultiModalProjector 生成的一系列紧凑“软 token”,这一方式将视觉数据固定为 256 个向量,有效降低了推理时的资源消耗。

Gemma 3 的视觉编码器采用双向注意力机制来处理图像输入。相比于预测类任务,双向注意力机制更适用于理解类任务(类似于 BERT 模型),因为这类任务需要对完整文本进行深入理解。

在模型架构方面,Gemma 3 针对内存使用进行了优化,特别是针对长上下文推理过程中 KV-cache 内存的减少。与 Gemma 1 中仅使用全局注意力机制,或 Gemma 2 中采用 1:1 的本地/全局注意力机制不同,Gemma 3 的改进大大降低了内存开销。这使得模型可以在不丢失上下文的情况下处理更长的文档和对话。具体而言,1B 模型支持最多 32k 个 token,而更大的模型支持最长 128k token 的上下文处理。

Gemma 3 还引入了改进版的分词器。虽然分词词表的大小被调整为 262k,但仍使用 SentencePiece 分词器。为了避免出错,建议用户在使用 Gemma 3 时务必搭配新版分词器。这款分词器与 Gemini 使用的是相同的版本,对非英语语言支持更为均衡。Gemma 3 的多语言能力得到了进一步加强,主要归功于重新设计的数据混合策略,增加了多语言(包括单语和平行语料)数据的比例。同时,团队也对预训练数据组合和后训练流程进行了优化,进一步增强模型的多语言能力。

在多个基准测试中,Gemma 3 的模型在预训练版本和指令微调版本上,相较于 Gemma 2 都展现出了更好的性能。该模型还能运行于单个消费级 GPU 或 TPU 设备上。Gemma 3 的 27B IT 模型在 2025 年 4 月 12 日的 LM Arena 排行榜中跻身前十,击败了很多体积更大的开源模型,Elo 分数也远高于 Gemma 2。

Gemma 3 对长上下文的处理能力得益于训练阶段的 RoPE(旋转位置嵌入)缩放。团队将全局自注意力层中的 RoPE 基频从 10k 提高到 1M,而本地注意力层仍保持在 10k,这使得模型能够泛化至 128k 的上下文长度。

想了解更多关于 Gemma 3 模型的信息,可以查看开发者指南、模型卡、表情包生成器,以及由社区打造的 Gemmaverse 平台。

参考: