北大清华等联合发布LLaVA-o1：首个自发性视觉 A

2024-11-19 12:55:56

　　由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学组成的研究团队，

　　UP 主：唐国梁 Tommy

　　LLaVA-o1 是一种新型的LLaVA-o1 拥有 110 亿个参数，基于 Llama-3.2-Vision-Instruct 模型开发，设计了总结、描述、推理和结论4 个推理阶段。

　　该模型使用名为 LLaVA-o1-100k 的数据集进行微调，该数据集源自该模型在处理复杂任务时具备较强的能力，在复杂与基础模型相比，LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能，超过了许多大型和闭源的竞争对手。

　　LLaVA-o1 的推出填补了文本和自发性人工智能是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。