Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于
Hugging Face 平台昨日发布博文,宣布推出 SmolVLM AI SmolVLM AI 模型共有 SmolVLM-Base、SmolVLM-Synthetic和 SmolVLM-Instruct三个版本。
架构
SmolVLM 最大的特点在于巧妙的架构设计,借鉴了 Idefics3,使用了 SmolLM2 1.7B 作为语言主干,通过像素混洗策略将训练数据集包括 Cauldron 和 Docmatix,并对 SmolLM2 进行了上下文扩展,使其能够处理更长的文本序列和多张图像。该模型通过优化图像编码和推理过程,有效降低了内存占用,解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题。
内存
SmolVLM 将 384x384 像素的图像块编码为 81 个 tokens,因此在相同测试下,SmolVLM 仅使用 1200 个 tokens,而 Qwen2-VL 则使用 1.6 万个 tokens。
吞吐量
SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色,且处理速度相比较 Qwen2-VL,预填充吞吐量快 3.3 到 4.5 倍,生成吞吐量快 7.5 到 16 倍。
附上参考地址
