英伟达发布 Llama Nemotron Nano VL

2025-06-05 08:43:16

　　科技媒体 marktechpost 昨日发布博文，报道称英伟达针对高效、精准地处理文档级理解任务，Llama Nemotron Nano VL 基于 Llama 3.1 架构，融合了 CRadioV2-H 模型通过投影层和旋转位置编码实现该模型的训练分为三个阶段：首先，利用商业图像和数据集进行交错式图文预训练；其次，通过多模态指令微调提升交互式提示能力；最后，重新混合纯文本指令数据以优化在标准语言模型基准上的表现。

　　训练采用英伟达的 Megatron-LLM 框架和 Energon 数据加载器，依托 A100 和 H100 GPU 集群完成。在 OCRBench v2 基准测试中，该模型在 OCR、表格解析和图表推理等任务上取得领先精度，尤其在结构化数据提取及布局相关问题解答中表现突出，媲美更大规模模型。

　　部署方面，Llama Nemotron Nano VL 设计灵活，支持服务器和边缘推理场景。英伟达提供了 4-bit 量化版本，结合 TinyChat 和 TensorRT-LLM 实现高效推理，兼容 Jetson Orin 等受限环境。

　　模型还支持 Modular NIM、ONNX 和 TensorRT 导出，此外英伟达通过预计算附上参考地址