谷歌发布 Gemma 3 QAT AI 模型，RTX 3090 显卡可运行

2025-04-19 10:52:23

　　谷歌公司昨日发布博文，发布了量化感知训练优化版 Gemma 3 模型，谷歌上月推出 Gemma 3 开源模型，能在单台 NVIDIA H100 GPU 上以 BFloat16精度高效运行。

　　援引博文介绍，谷歌为响应用户需求，致力于让 Gemma 3 的强大性能适配普通硬件。量化技术是关键，通过降低模型参数的数值精度，类似图像压缩减少颜色数量，大幅减少数据存储量。

　　以 int4 量化为例，Gemma 3 27B 显存需求这意味着用户可在桌面或笔记本上运行强大 AI 模型，甚至手机也能支持小型模型。

　　为避免量化导致性能下降，谷歌采用量化感知训练技术，在训练过程中模拟低精度运算，确保模型在压缩后仍保持高准确性。Gemma 3 QAT 模型在约 5000 步训练中，将困惑度下降减少了 54%。

　　Ollama、LM Studio 和 llama.cpp 等主流平台已集成该模型，用户可通过 Hugging Face 和 Kaggle 获取官方 int4 和 Q4_0 模型，轻松在 Apple Silicon 或 CPU 上运行。此外，Gemmaverse 社区提供了更多量化选项，满足不同需求。