字节跳动豆包大模型团队开源MoE架构优化技术,
字节跳动豆包大模型团队官宣开源一项针对 MoE架构的关键优化技术,早前豆包团队发布了新一代稀疏架构 UltraMem,将模型推理成本砍掉 83%,此次,又开源了 COMET,向模型训练成本出手。
目前,COMET 核心代码已开源,并计划兼容 Triton 等编译生态。
论文链接:
开源地址:
字节跳动豆包大模型团队官宣开源一项针对 MoE架构的关键优化技术,早前豆包团队发布了新一代稀疏架构 UltraMem,将模型推理成本砍掉 83%,此次,又开源了 COMET,向模型训练成本出手。
目前,COMET 核心代码已开源,并计划兼容 Triton 等编译生态。
论文链接:
开源地址: