2024-06-24 18:52:54
商汤科技在 4 月发布了日日新 5.0 大模型,该模型采用 MOE 混合专家架构,在知识、数学、推理和代码能力方面大幅提升。
该模型基于超过 10TB tokens 训练,