微软 BitNet b1.58 2B4T 登场

2025-04-18 09:32:55

　　科技媒体 WinBuzzer 昨日发布博文，报道称微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T，区别于传统训练后量化的方式，这款拥有 20 亿参数的大型语言模型以 1.58 位低精度架构原生训练而成。

　　援引技术报告介绍，BitNet 的高效秘诀在于其创新架构。模型摒弃传统 16 位数值，采用定制 BitLinear 层，将权重限制为-1、0、+1 三种状态，形成三值系统，每权重仅需约 1.58 位信息存储。

　　此外，层间激活值以 8 位整数量化，形成 W1.58A8 配置。微软还调整了 Transformer 架构，引入平方 ReLU 激活函数、标准旋转位置嵌入以及 subln 归一化，确保低位训练稳定性。技术报告称，这种原生 1 位训练避免了传统后训练量化带来的性能损失。

　　BitNet b1.58 2B4T 的开发历经三阶段：首先基于 4 万亿 token 的网络数据、代码和合成数学数据集进行预训练；随后通过公开及合成指令数据集进行监督微调；最后采用直接偏好优化方法，利用 UltraFeedback 等数据集提升对话能力和安全性。

　　微软测试显示，该模型在 GSM8K、PIQA等基准测试中表现优异，整体性能媲美主流 1B-2B 参数全精度模型，同时在能耗和 CPU 解码延迟上占据显著优势。

　　尽管 BitNet 潜力巨大，但其高效性需依赖微软提供的专用 C++ 框架 bitnet.cpp 实现。标准工具如 Hugging Face transformers 库无法展现其速度与能耗优势。

　　微软还计划优化 GPU 和 NPU 支持，延长上下文窗口至 4096 token，并探索更大规模模型、多语言功能及硬件协同设计。目前，BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 发布，供社区测试与应用。

　　参考