阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

2024-09-02 15:04:56

　　阿里云通义千问今日宣布据阿里云官方介绍，相比上代模型，Qwen2-VL 的基础性能全面提升：

　　读懂不同分辨率和不同长宽比的，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；理解 20 分钟以上长，支持基于的问答、对话和内容创作等应用；具备强大的Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构，但为了让模型能够更清楚地感知

　　一是实现了对原生动态分辨率的全面支持。不同于上代模型，Qwen2-VL 能够处理任意分辨率的图像输入，不同大小将被转换为动态数量的 tokens，最小只占 4 个 tokens。这一设计模拟了人类此次 Qwen2-VL 开源的多款模型中的旗舰模型同时，