鹏城实验室×中山大学，发布具身智能真实世界评测新基准 RADAR

拓元智慧·2026-03-30

相关论文已发布于 arXiv（2602.10980）。

具身智能模型在仿真环境中刷新榜单，却在真实物理场景中频繁失效——这一落差长期缺乏有效的量化工具来描述和诊断。现有评测基准普遍忽视光照噪声、传感器干扰与空间推理等关键维度，导致"高分模型"的泛化能力被系统性高估。

鹏城实验室多智能体与具身智能研究所、中山大学 HCP 实验室的研究团队针对这一问题，提出了评测基准RADAR(Real-world Autonomous Dynamics And Reasoning)，旨在通过系统性引入物理扰动、空间推理任务与全自动 3D 评估，为具身模型提供更接近真实世界的泛化能力评估框架。相关论文已发布于 arXiv（2602.10980）。

问题的根源：仿真世界的"虚假繁荣"

研究团队通过系统性审计，将上述现象归结为现有评测体系的三大系统性缺陷：

忽视真实世界动态性：未考虑物体配置变化、机器人初始位姿、光照条件、传感器噪声等关键因素
缺乏空间-物理智能考察：任务过于简化，无法探测模型的几何推理能力
评估方法不可扩展：依赖人工监督或简单 2D 指标，成本高昂且结果存在偏差

RADAR 的三大核心创新

图片2.png

Figure 1: 视觉-语言-动作模型架构示意图

1. 四维物理扰动，系统化模拟真实世界复杂性

RADAR 引入四维物理扰动轴，将真实世界的动态性系统化地注入评测流程：

图片3.png

Table 1: RADAR 四维物理扰动轴

实验数据直接揭示了问题的严重性：仅引入传感器噪声，主流模型的 3D IoU 性能便从 0.261 骤降至 0.068，跌幅达 74%。这意味着，在仿真环境中表现稳健的模型，面对真实世界的轻微扰动便大幅失效。

图片3.1.png

Figure 2: 不同的扰动条件可视化

2. 分级任务设计与专项空间推理考察

RADAR 构建了四个复杂度递增的任务分组，覆盖从基础操作到复杂场景决策的完整能力链条。更为关键的是，RADAR 专门设计了空间理解任务集，要求模型理解物体间的相对位置关系，对真正意义上的几何推理能力进行针对性考察。实验结果表明，当前主流 VLA 模型在这一维度上存在显著局限。

图片4.png

Figure 3: 空间推理任务示例：需要理解物体间的相对位置关系

3. 全自动化 3D 评估，零人工干预

RADAR 的评估系统实现了完全自主化，具有以下优势：

精确空间视觉：采用双视觉RGBD摄像头定位三维空间指标，捕捉真实的空间结构
零人工干预：全流程语义分割、3D重建自动化，消除人为偏差
可大规模扩展：轻量化的分割重建模型支持批量测试，成本低廉
结果可复现：多步骤可重试的标准化流程确保评测一致性

图片5.png

Figure 4: 自主化 3D 评估系统

三步上手，快速接入评测

RADAR 接口设计简洁，与主流 VLA 框架无缝对接，三步即可完成评测：

通过 pip 安装 RADAR 工具包
申请 API key 并配置 SDK
运行评测脚本，自动生成详细报告

代码示例：

from src.client import RADARClient

session_id = client.get_worker()

client.begin_eval({"task_id": "single_red"}) #开始评测

status = client.get_status()#获取场景状态

action = model(status)#运行模型

client.send_action({"action_type":"test_action","action_params": {}})#执行动作

result = client.end_evaluation()#结束评测

图片6.png

Figure 5: 远程部署，在线测试：RADAR 评测流程

无论是学术研究还是工程验证，均可快速复用。文档持续完善，支持自定义任务和评估指标。

RADAR 的价值

RADAR 的价值，不止于一个更难刷的榜单。它从根本上重新定义了"评测什么"。

对研究者：

揭示模型在真实场景中的实际表现，而非仿真环境下的估计值
精准定位模型的具体弱点与改进方向
推动研究范式从"仿真刷榜"转向"真实鲁棒性"

对领域发展：

为具身智能评测建立可复现、可扩展的新标准
系统性弥合仿真与真实世界之间的评测鸿沟
加速 VLA 模型的实用化进程

获取与参与

论文：arXiv:2602.10980
代码：即将开源（敬请关注）
文档：完整使用指南与 API 文档
支持：活跃的开发者社区

无论你在研究 VLA 模型、具身智能代理、机器人操作与规划，还是多模态学习系统，RADAR 均提供标准化的评测入口。欢迎使用 RADAR 评测你的模型，并参与社区反馈与协作贡献。

References

[1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980