具身智能模型在仿真环境中刷新榜单,却在真实物理场景中频繁失效——这一落差长期缺乏有效的量化工具来描述和诊断。现有评测基准普遍忽视光照噪声、传感器干扰与空间推理等关键维度,导致"高分模型"的泛化能力被系统性高估。
鹏城实验室多智能体与具身智能研究所、中山大学 HCP 实验室的研究团队针对这一问题,提出了评测基准RADAR(Real-world Autonomous Dynamics And Reasoning),旨在通过系统性引入物理扰动、空间推理任务与全自动 3D 评估,为具身模型提供更接近真实世界的泛化能力评估框架。相关论文已发布于 arXiv(2602.10980)。

问题的根源:仿真世界的"虚假繁荣"
研究团队通过系统性审计,将上述现象归结为现有评测体系的三大系统性缺陷:
忽视真实世界动态性:未考虑物体配置变化、机器人初始位姿、光照条件、传感器噪声等关键因素
缺乏空间-物理智能考察:任务过于简化,无法探测模型的几何推理能力
评估方法不可扩展:依赖人工监督或简单 2D 指标,成本高昂且结果存在偏差
RADAR 的三大核心创新

Figure 1: 视觉-语言-动作模型架构示意图
1. 四维物理扰动,系统化模拟真实世界复杂性
RADAR 引入四维物理扰动轴,将真实世界的动态性系统化地注入评测流程:

Table 1: RADAR 四维物理扰动轴
实验数据直接揭示了问题的严重性:仅引入传感器噪声,主流模型的 3D IoU 性能便从 0.261 骤降至 0.068,跌幅达 74%。这意味着,在仿真环境中表现稳健的模型,面对真实世界的轻微扰动便大幅失效。

Figure 2: 不同的扰动条件可视化
2. 分级任务设计与专项空间推理考察
RADAR 构建了四个复杂度递增的任务分组,覆盖从基础操作到复杂场景决策的完整能力链条。更为关键的是,RADAR 专门设计了空间理解任务集,要求模型理解物体间的相对位置关系,对真正意义上的几何推理能力进行针对性考察。实验结果表明,当前主流 VLA 模型在这一维度上存在显著局限。

Figure 3: 空间推理任务示例:需要理解物体间的相对位置关系
3. 全自动化 3D 评估,零人工干预
RADAR 的评估系统实现了完全自主化,具有以下优势:
精确空间视觉:采用双视觉RGBD摄像头定位三维空间指标,捕捉真实的空间结构
零人工干预:全流程语义分割、3D重建自动化,消除人为偏差
可大规模扩展:轻量化的分割重建模型支持批量测试,成本低廉
结果可复现:多步骤可重试的标准化流程确保评测一致性

Figure 4: 自主化 3D 评估系统
三步上手,快速接入评测
RADAR 接口设计简洁,与主流 VLA 框架无缝对接,三步即可完成评测:
通过 pip 安装 RADAR 工具包
申请 API key 并配置 SDK
运行评测脚本,自动生成详细报告
代码示例:
from src.client import RADARClient
session_id = client.get_worker()
client.begin_eval({"task_id": "single_red"}) #开始评测
status = client.get_status()#获取场景状态
action = model(status)#运行模型
client.send_action({"action_type":"test_action","action_params": {}})#执行动作
result = client.end_evaluation()#结束评测

Figure 5: 远程部署,在线测试:RADAR 评测流程
无论是学术研究还是工程验证,均可快速复用。文档持续完善,支持自定义任务和评估指标。
RADAR 的价值
RADAR 的价值,不止于一个更难刷的榜单。它从根本上重新定义了"评测什么"。
对研究者:
揭示模型在真实场景中的实际表现,而非仿真环境下的估计值
精准定位模型的具体弱点与改进方向
推动研究范式从"仿真刷榜"转向"真实鲁棒性"
对领域发展:
为具身智能评测建立可复现、可扩展的新标准
系统性弥合仿真与真实世界之间的评测鸿沟
加速 VLA 模型的实用化进程
获取与参与
论文:arXiv:2602.10980
代码:即将开源(敬请关注)
文档:完整使用指南与 API 文档
支持:活跃的开发者社区
无论你在研究 VLA 模型、具身智能代理、机器人操作与规划,还是多模态学习系统,RADAR 均提供标准化的评测入口。欢迎使用 RADAR 评测你的模型,并参与社区反馈与协作贡献。
References
[1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980







