阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
阿里云通义千问今日宣布据阿里云官方介绍,相比上代模型,Qwen2-VL 的基础性能全面提升:
读懂不同分辨率和不同长宽比的,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现; 理解 20 分钟以上长,支持基于的问答、对话和内容创作等应用; 具备强大的Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,但为了让模型能够更清楚地感知
一是实现了对原生动态分辨率的全面支持。不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小将被转换为动态数量的 tokens,最小只占 4 个 tokens。这一设计模拟了人类此次 Qwen2-VL 开源的多款模型中的旗舰模型同时,
