小米大模型升级第二代:参数尺寸 0.3B~30B,能力
小米公司MiLM大模型在去年8月首度现身 C-Eval、CMMLU大模型评测榜单,并在今年 5 月通过大模型备案,相关模型逐步应用于小米汽车、手机、智能家居等产品中。
今日,小米官方宣布大模型已经实现了据介绍,此次迭代不仅扩充了训练数据的规模、提升了数据的品质,更在训练策略与微调机制上进行了深入打磨,增强了技术实力并全面升级了配套的部署技术。从小米公告获悉,小米第二代大语言模型的几个主要升级是:
第二代大语言模型丰富了模型的参数矩阵,参数规模同时向下和向上扩充,
第二代大语言模型在 10 大能力维度上,
第二代大语言模型在端侧部署上
第二代大语言模型支持的
二代效果全方位提升
小米大模型团队采用自主构建的通用能力评测集 Mi-LLMBM2.0,对最新一代的 MiLM2 模型进行了全方位评估。
该评测集涵盖了广泛的应用场景,包括生成、脑暴、对话、问答、改写、摘要、分类、提取、代码处理以及安全回复等 10 个大类,共计 170 个细分测试项。
以 MiLM2-1.3B 模型和 MiLM2-6B 模型为例,对比去年发布的一代模型,在十大能力上的效果小米的战略,旨在构建一个涵盖人、车、家等多元化生活场景的超级智能生态系统,对于大模型的生成、闲聊、翻译等能力提出了更高的要求。在这些关键能力上,MiLM2-6B 模型的评测成绩号称“对比业内同参数规模模型也有较优的效果”。
MiLM2模型矩阵云边端结合
在轻量化部署的大原则下,小米自研大模型团队考虑了集团内部多元化的业务场景及不同落地场景的资源限制,构建并不断扩充了自研大模型的模型矩阵,将大模型的参数规模扩展至
小米自研大模型矩阵不仅包含多样的参数量级,同时也纳入了各种不同的模型结构。在二代模型系列中,大模型团队特别加入了两个 MoE结构的模型:
两个模型的差异主要体现在训练总参数量、词表大小等方面。MoE 模型的工作原理是将多个承担特定功能的“专家”模型进行并行处理,进而综合各模型的输出来提高整体预测的准确度和效率。
以 MiLM2-2B×8 为例,根据评测结果,该模型在整体性能上与 MiLM2-6B 不相上下,
4B 模型端侧落地,30B 模型云端部署端侧新增 4B 模型
去年,小米的大模型团队在小米大模型团队地提出了“
Qwen2.5-3B-Instruct 结果采用 FollowBench 和 IFEval 官方代码测试云端新增 30B 模型
MiLM2-30B 模型是小米二代大模型系列中参数量级最大的模型,专为云端场景设计。
在云端环境中,大模型面临着多样化和高难度的挑战,需要更高效地遵从并执行用户的复杂指令,深入分析多维度任务,并在长上下文中精准定位信息。针对这些重点目标,大模型团队选择了一系列开源的评测集,对 MiLM2-30B 模型的专项能力进行评估。
结果表明,MiLM2-30B 模型在小米公司表示,小米第二代自研大模型取得的进步和成果,已经开始渗透到真实的业务场景与用户需求中,不仅帮助集团内部解决了多样化的业务需求、实现工作提效,