昆仑万维发布奖励模型 Skywork-Reward，登顶 Reward

2024-09-13 15:31:45

　　昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型奖励模型是强化学习中的核心概念和关键组成，它用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，奖励模型在大语言模型的训练中尤为重要，可以帮助模型更好地理解和生成符合人类偏好的内容。

　　与现有奖励模型不同，附相关链接如下：

　　RewardBench 排行榜：

　　27B 模型地址：

　　8B 模型地址：

　　偏序数据地址：