研究人员开源 Sky-T1 推理 AI 模型,训练成本不到
本周,来自加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。该模型在多项关键基准测试中的表现可与 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。
NovaSky 团队在博客中透露,与大多数 AI 模型不同,推理模型具备自我事实核查能力,能够有效避免一些常见错误。尽管推理模型在解决问题时通常比非推理模型需多花费几秒到几分钟,但在物理、科学和数学等领域,其可靠性更高。
NovaSky 团队表示,在性能方面,Sky-T1 在 MATH500上的表现优于 o1 的早期预览版本,同时在 LiveCodeBench 的编程评估中也表现更佳。然而,在 GPQA-Diamond 测试中,Sky-T1 略逊于 o1 预览版。
需要指出的是,OpenAI 已发布的 o1 正式版比预览版更强大,且预计未来几周内将推出性能更优的推理模型 o3。尽管如此,NovaSky 团队表示,Sky-T1 只是他们开发开源推理模型的起点。
团队在博客中写道:“未来,我们将专注于开发更具效率的模型,同时保持强大的推理性能,并探索先进技术以进一步提升模型在测试时的效率和准确性。请继续关注我们在这些激动人心的项目上取得的进展。”
