英伟达发布 Llama Nemotron Nano VL

2025-06-05 08:43:16

  科技媒体 marktechpost 昨日发布博文,报道称英伟达针对高效、精准地处理文档级理解任务,Llama Nemotron Nano VL 基于 Llama 3.1 架构,融合了 CRadioV2-H 模型通过投影层和旋转位置编码实现该模型的训练分为三个阶段:首先,利用商业图像和数据集进行交错式图文预训练;其次,通过多模态指令微调提升交互式提示能力;最后,重新混合纯文本指令数据以优化在标准语言模型基准上的表现。

  训练采用英伟达的 Megatron-LLM 框架和 Energon 数据加载器,依托 A100 和 H100 GPU 集群完成。在 OCRBench v2 基准测试中,该模型在 OCR、表格解析和图表推理等任务上取得领先精度,尤其在结构化数据提取及布局相关问题解答中表现突出,媲美更大规模模型。

  部署方面,Llama Nemotron Nano VL 设计灵活,支持服务器和边缘推理场景。英伟达提供了 4-bit 量化版本,结合 TinyChat 和 TensorRT-LLM 实现高效推理,兼容 Jetson Orin 等受限环境。

  模型还支持 Modular NIM、ONNX 和 TensorRT 导出,此外英伟达通过预计算附上参考地址

下一篇:Epic Games 正与 Arm 合作,将 ASR 集成到移动端《堡
上一篇:“国际化跃迁”提速:东风三大自主乘用车品牌
返回顶部小火箭