阿里通义团队开源 R1-Omni:多模态模型 + RLVR
随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、然而,现有研究多聚焦于 Image-Text 多模态任务,尚未涉足更复杂的全模态场景。基于此,通义实验室团队探索了 RLVR 与全模态模型的结合,于今日宣布开源R1-Omni 的一大亮点在于其比如,在情绪识别任务中,R1-Omni 能够明确展示哪些模态信息为了验证 R1-Omni 的性能,通义实验室团队将其与原始的 HumanOmni-0.5B 模型、冷启动阶段的模型以及在 MAFW 和 DFEW 数据集上有监督微调的模型进行了对比。
实验结果显示,在同分布测试集上,附 R1-Omni 开源地址: