阿里通义千问推出视觉推理模型 QVQ-Max
今天凌晨,阿里通义千问团队宣布推出新一代据官方介绍,QVQ-Max 不仅能够理解和内容,还能为上述信息提供分析并推理。不止分析和推理,QVQ-Max 还可以完成设计插图、生成短剧本等内容,甚至根据用户的需求创建角色扮演内容。
核心能力:从观察到推理
QVQ-Max 的能力可以总结为三个方面:细致观察、深入推理和灵活应用。下面分别来说说它在这些方面的表现。
QVQ-Max 对的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以告诉你一张照片里有哪些物品、有什么文字标识,甚至还能指出一些你可能忽略的小细节。
仅仅识别出里的内容还不够,QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段里,它能根据画面内容推测出接下来可能发生的情节。
除了分析和推理,QVQ-Max 还能做一些有趣的事情,比如帮你设计插画、生成短脚本,甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身犀利的评论家,占卜师。
QVQ-Max 的应用范围很广,无论是在学习、工作还是日常生活中都能派上用场。
目前该模型已上线 Qwen Chat,用户只需上传任意或,提出问题,并点击“Thinking”按钮,即可使用 QVQ-Max 的推理能力。
阿里巴巴表示,这只是该模型演化过程中的一个阶段,未来还将持续优化其性能并扩展功能。
