鹏城实验室×中山大学,发布具身智能真实世界评测新基准 RADAR

关注
相关论文已发布于 arXiv(2602.10980)。 ​

具身智能模型在仿真环境中刷新榜单,却在真实物理场景中频繁失效——这一落差长期缺乏有效的量化工具来描述和诊断。现有评测基准普遍忽视光照噪声、传感器干扰与空间推理等关键维度,导致"高分模型"的泛化能力被系统性高估。

鹏城实验室多智能体与具身智能研究所中山大学 HCP 实验室的研究团队针对这一问题,提出了评测基准RADAR(Real-world Autonomous Dynamics And Reasoning),旨在通过系统性引入物理扰动、空间推理任务与全自动 3D 评估,为具身模型提供更接近真实世界的泛化能力评估框架。相关论文已发布于 arXiv(2602.10980)。

图片1.png

问题的根源:仿真世界的"虚假繁荣"

研究团队通过系统性审计,将上述现象归结为现有评测体系的三大系统性缺陷

  • 忽视真实世界动态性:未考虑物体配置变化、机器人初始位姿、光照条件、传感器噪声等关键因素

  • 缺乏空间-物理智能考察:任务过于简化,无法探测模型的几何推理能力

  • 评估方法不可扩展:依赖人工监督或简单 2D 指标,成本高昂且结果存在偏差

RADAR 的三大核心创新

图片2.png

Figure 1: 视觉-语言-动作模型架构示意图

1. 四维物理扰动,系统化模拟真实世界复杂性

RADAR 引入四维物理扰动轴,将真实世界的动态性系统化地注入评测流程:

图片3.png

Table 1: RADAR 四维物理扰动轴

实验数据直接揭示了问题的严重性:仅引入传感器噪声,主流模型的 3D IoU 性能便从 0.261 骤降至 0.068,跌幅达 74%。这意味着,在仿真环境中表现稳健的模型,面对真实世界的轻微扰动便大幅失效。

图片3.1.png

Figure 2: 不同的扰动条件可视化

2. 分级任务设计与专项空间推理考察

RADAR 构建了四个复杂度递增的任务分组,覆盖从基础操作到复杂场景决策的完整能力链条。更为关键的是,RADAR 专门设计了空间理解任务集,要求模型理解物体间的相对位置关系,对真正意义上的几何推理能力进行针对性考察。实验结果表明,当前主流 VLA 模型在这一维度上存在显著局限。

图片4.png

Figure 3: 空间推理任务示例:需要理解物体间的相对位置关系

3. 全自动化 3D 评估,零人工干预

RADAR 的评估系统实现了完全自主化,具有以下优势:

  • 精确空间视觉:采用双视觉RGBD摄像头定位三维空间指标,捕捉真实的空间结构

  • 零人工干预:全流程语义分割、3D重建自动化,消除人为偏差

  • 可大规模扩展:轻量化的分割重建模型支持批量测试,成本低廉

  • 结果可复现:多步骤可重试的标准化流程确保评测一致性

图片5.png

Figure 4: 自主化 3D 评估系统

三步上手,快速接入评测

RADAR 接口设计简洁,与主流 VLA 框架无缝对接,三步即可完成评测

  1. 通过 pip 安装 RADAR 工具包

  2. 申请 API key 并配置 SDK

  3. 运行评测脚本,自动生成详细报告

代码示例

from src.client import RADARClient

session_id = client.get_worker()

client.begin_eval({"task_id": "single_red"}) #开始评测

status = client.get_status()#获取场景状态

action = model(status)#运行模型

client.send_action({"action_type":"test_action","action_params": {}})#执行动作

result = client.end_evaluation()#结束评测

图片6.png

Figure 5: 远程部署,在线测试:RADAR 评测流程

无论是学术研究还是工程验证,均可快速复用。文档持续完善,支持自定义任务和评估指标。

RADAR 的价值

RADAR 的价值,不止于一个更难刷的榜单。它从根本上重新定义了"评测什么"。

对研究者

  • 揭示模型在真实场景中的实际表现,而非仿真环境下的估计值

  • 精准定位模型的具体弱点与改进方向

  • 推动研究范式从"仿真刷榜"转向"真实鲁棒性"

对领域发展

  • 为具身智能评测建立可复现、可扩展的新标准

  • 系统性弥合仿真与真实世界之间的评测鸿沟

  • 加速 VLA 模型的实用化进程

获取与参与

  • 论文:arXiv:2602.10980

  • 代码:即将开源(敬请关注)

  • 文档:完整使用指南与 API 文档

  • 支持:活跃的开发者社区

无论你在研究 VLA 模型、具身智能代理、机器人操作与规划,还是多模态学习系统,RADAR 均提供标准化的评测入口。欢迎使用 RADAR 评测你的模型,并参与社区反馈与协作贡献。

References

[1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980

反馈
联系我们
推荐订阅