Meta 推出 Llama 3.2 1B3B 模型量化版，功耗更低

2024-10-27 14:22:37

　　继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后，Meta 于 10 月 24 日发布了这两个模型的量化版本，量化后的模型大小平均减少了 56%，RAM 使用量平均减少了 41%，模型速度提高了 2 至 4 倍，同时降低了功耗，使这些模型能够部署到更多移动设备上。

　　注：模型量化就是通过各种训练方式将浮点模型转为定点模型，可以压缩模型参数，降低模型的复杂性，以便于在更轻量的平台运行。

　　Meta 表示，他们采用了量化感知训练和后训练量化两种方法对模型进行量化，据介绍，研究人员一共为 Llama 3.2 的 1B 和 3B 模型各推出了两款量化版本，分别为 Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant、Llama 3.2 3B QLoRA 和 Llama 3.2 3B SpinQuant。

　　Meta 声称，这些量化模型比非量化的 Llama BF16 模型速度更快，占用更少的 RAM，并且功耗更低，同时保持与 Llama BF16 版本几乎相同的精度。

　　尽管量化后的 Llama 3.2 1B 和 3B 模型目前，Meta 已在一加12、三星 S24+/S22 及苹果 iOS 设备等移动平台测试这些经过量化后模型，测试“运行结果良好”，研究人员未来还计划通过神经处理单元提升这些量化模型的性能。