清华、星动纪元开源首个 AIGC 机器人大模型

2025-05-07 16:41:44

  星动纪元今日在官方上宣布,开源首个 AIGC 机器人大模型 据了解,生成式机器人大模型 VPP 由清华大学叉院的 ISRLab 和星动纪元合作开发,将扩散模型的泛化能力转移到了通用机器人操作策略中,解决了 diffusion 推理速度的问题,让机器人实时进行未来预测和动作执行,大大提升机器人策略泛化性,星动纪元介绍称,VPP 利用了大量互联网数据进行训练,目前 AI 大模型领域有两种主流方法,基于自回归的理解模型和基于扩散的生成模型,各自代表作分别为自回归的 GPT 和生成式的 Sora:

  GPT 的思路演化到具身智能领域,就是以 PI为代表的 VLA 技术,是从然而,人工智能领域存在着著名的莫拉维克悖论:高级推理功能反而容易,下层的感知和执行反而困难。如图所示,VPP 分成两阶段的学习框架,最终实现基于文本指令的动作生成。第一阶段利用扩散模型学习预测性

  1、提前预知未来:VPP 让机器人行动前做到“心里有数”

  以往机器人策略往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP 能够提前预知未来的场景,让机器人“看着答案”行动,大大增强泛化能力。

  VPP 预测结果与机器人实际物理执行结果几乎一致。能被生成的,就能被机器人执行。

  2、高频预测和执行:VPP 让机器人执行速度“更快一步”

  AIGC 扩散模型虽能生成逼真的,但往往花费大量推理时间。星动纪元研究团队发现,不需要精确地预测未来的每个像素,通过有效提取模型中间层的表征,单步去噪的预测就可以蕴含大量未来信息。这让模型预测时间小于 150ms,模型的预测频率约 6-10hz,通过 action chunk size = 10,模型的控制频率能超过 50Hz。

  如图所示,单步扩散模型预测已经蕴含大量未来信息,足够实现高频预测和执行。

  3、跨本体学习:VPP 让机器人先验知识流通“畅通无阻”

  如何利用不同本体的机器人数据是一个巨大的难题。VLA 模型只能学习不同维度的低维度 action 信息,而 VPP 可以直接学习各种形态机器人的数据,不存在维度不同的问题。如果将人类本体也当作一种机器本体,VPP 也可以直接学习人类操作数据,降低数据获取成本。同时数据也包含比低维度动作更加丰富的信息,提高模型泛化能力。

  VPP 能学习跨本体的丰富数据,相比之下,VLA 只能学习维度不一致的低维动作信号。

  4、基准测试领先:VPP 让机器人性能“一骑绝尘”

  在 Calvin ABC-D 基准测试中,实现了 4.33 的任务完成平均长度,已经接近任务的满分 5.0。相较于先前技术,VPP 实现了 41.5% 的提升。

  左图为 Calvin ABC-D 任务的平均长度对比,右图为 Real-World Dexterous Hand 任务的成功率对比。可以看出,VPP 方法在这两项指标中均取得了最佳表现,在仿真环境任务完成平均长度达到 4.33,线%,显著优于其他方法。

  5、真实世界灵巧操作:VPP 让机器人灵巧操作“举一反三”

  在真实世界的测试中,VPP 模型展现出了良好的多任务学习能力和泛化能力。在星动纪元单臂 + 仿人五指灵巧手灵巧手 XHAND 平台,VPP 能使用一个网络完成 100+ 种复杂灵巧操作任务,例如抓取、放置、堆叠、倒水、工具使用等,在双臂人形机器人平台能完成 50+ 种复杂灵巧操作任务。

  6、可解释性与调试优化:VPP 让机器人“透明可控”

  VPP 的预测而 VLA 模型是完全端到端的模型,开发者在调试优化中需要大量真实世界的测试来找到模型漏洞,需要花费大量的时间。

  附开源链接如下:

  论文地址:项目地址:开源代码:

下一篇:美国军方成功测试高超音速飞行器,可重复使用
上一篇:TSMC Arizona 总裁:预计本十年末第三晶圆厂投产时
返回顶部小火箭