英伟达 NVLM 1.0 引领多模态 AI 变革,媲美 GPT-4o

2024-09-21 12:53:58

  科技媒体 marktechpost 昨日发布博文,报道了英伟达最新发布的论文,

  多模态大型语言模型

  多模态大型语言模型所创建的 AI 系统,能够无缝解读文本和多模态大型语言模型在图像识别、自然语言处理和计算机

  英伟达 NVLM 1.0

  NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三种主要架构。每个架构都结合先进的多模态推理功能与高效的文本处理功能,从而解决了以往方法的不足之处。

  NVLM 1.0 的一个显著特点是在训练过程中加入了高质量纯文本监督微调数据,这使得这些模型在研究团队强调,他们的方法旨在超越 GPT-4V 等现有专有模型和 InternVL 等开放式替代模型。

  NVLM 1.0 模型采用混合架构来平衡文本和图像处理:

  NVLM-D:纯解码器模型,以统一的方式处理两种模式,因此特别擅长多模式推理任务。

  NVLM-X:采用交叉注意机制,提高了处理高分辨率图像时的计算效率

  NVLM-H:混合了上述两种架构的优势,在保持文本推理所需的效率的同时,实现了更详细的图像理解。

  这些模型结合了高分辨率照片的动态平铺技术,在不牺牲推理能力的情况下显著提高了 OCR 相关任务的性能。

  性能

  在性能方面,NVLM 1.0 模型在多个基准测试中取得了令人印象深刻的成绩。

  归功于在训练过程中集成了高质量的文本数据集,在 MATH 和 GSM8K 等纯文本任务中,NVLM-D1.0 72B 模型比其纯文本骨干提高了 4.3 分。

  在

  在 OCR 相关任务中,NVLM 模型的表现明显优于现有系统,在 DocVQA 和 ChartQA 数据集上的准确率分别为 87.4% 和 81.7%,突出显示了其处理复杂

  NVLM-X 和 NVLM-H 模型也取得了这些成绩,它们在处理高分辨率图像和多模态数据方面表现出色。

  研究的主要发现之一是,NVLM 模型不仅在例如,在基于文本的推理任务中,NVLM 模型保持了较高的准确率,在某些情况下甚至超过了纯文本模型。

  想象一下在自动驾驶汽车中的应用场景。NVLM 1.0 可以通过摄像头实时获取道路信息,并与车辆导航系统进行语言沟通。

  它不仅能识别交通标志,还能理解复杂路况下的人类指令,例如“如果前方有施工,请寻找替代路线”。这得益于其强大的

  小结

  英伟达开发的 NVLM 1.0 模型代表了多模态大型语言模型的重大突破,该模型通过在多模态训练中集成高质量文本数据集,并采用动态平铺和高分辨率图像平铺标记等创新架构设计,解决了在不牺牲性能的前提下平衡文本和图像处理的关键难题。

  NVLM 系列模型不仅在附上参考地址

下一篇:适马 28-105mm F2.8 镜头国行定价公布:10580 元
上一篇:领克 06 Renew 官宣 9 月 26 日“登场”,支持魅族
返回顶部小火箭