ICML 2026|Cosmos 3 登顶物理视频榜首,R-Bench成为具身视频生成金标准,北大团队开源百万级机器人具身视频数据集

关注
Cosmos 3 登顶开源榜,R-Bench新结果说明了什么?
论文: https://arxiv.org/abs/2601.15282

Project Page: https://dagroup-pku.github.io/ReVidgen.github.io/GitHub: https://github.com/DAGroup-PKU/HumanNetR-Bench Leaderboard: https://huggingface.co/spaces/DAGroup-PKU/LeaderboardRoVid-X Dataset: https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/

过去一年,视频生成模型的叙事几乎都围绕一个问题展开:谁能生成更清晰、更稳定、更有电影感的视频?但在机器人和具身智能场景里,另一个问题正在变得更为关键:视频生成模型,真的理解物理世界吗?

如果一个模型能生成逼真的机械臂,却让夹爪穿过物体;能让机器人看起来“动起来”,却无法完成抓取、放置、转身、协作等任务,那么它距离 Physical AI 需要的“世界模型”,仍然隔着一条鸿沟。

在ICML 2026接收工作Rethinking Video Generation Model for the Embodied World中,来自北京大学、字节跳动 Seed 等机构的研究团队提出了面向具身世界的视频生成评测与数据基础设施:R-Bench + RoVid-X。

随着 NVIDIA 在 GTC Taipei at COMPUTEX 2026 上介绍最新 Physical AI 视频世界模型 Cosmos 3, R-Bench 正式被作为具身视频生成的评测基准用于进行系统性评估。结果显示,Cosmos 3 系列中的Cosmos3-Nano以0.584的综合得分拿下R-Bench 开源模型 Top-1,Cosmos3-Super紧随其后,位列开源模型前列。

这不是一个单纯的排行榜更新。它背后指向的是一个更大的问题:当视频模型开始被大规模用于机器人训练、物理仿真和具身智能数据闭环时,什么样的视频更适合用于具身训练?在传统视频模型评价体系中表现优异的模型,真的就更适合用于具身智能模型的训练吗?如何获得一批在具身场景下,数据效率更高的子集?

这正是 R-Bench 和 RoVid-X 想要回答的问题。


新的评测方式,与人工评判更加对齐

过去的视频生成评测,更多关注画面质量、文本对齐、时序稳定性和人类偏好。这样的指标适合衡量“好不好看”,但很难回答“能不能用在物理世界”。

在具身智能场景中,视频生成模型需要面对的是一组完全不同的约束:物体接触是否真实,机械结构是否稳定,动作顺序是否合理,任务是否被完整执行,机器人形态是否在长视频中保持一致。

换句话说,电影级视频不等于物理级视频。

R-Bench 的核心出发点,就是把视频生成模型从“视觉生成器”放到“物理世界模拟器”的语境下重新评估。它不只看画面是否逼真,而是系统性衡量模型是否能生成符合具身任务逻辑和物理约束的视频。统计数据表明,R-Bench的测量分数与人工评分相关想高达0.96.

R-Bench:面向机器人视频生成的细粒度基准

R-Bench 是一个以机器人为中心的视频生成评测基准,包含650 个图像-文本评测样本,从5 类任务能力和4 类机器人形态两个维度构建。

在任务维度上,R-Bench覆盖操作执行、空间关系、多主体协作、长时规划和视觉推理;在机器人形态维度上,覆盖单臂、双臂、四足和人形机器人。


这样的设计让 R-Bench 不再只问“视频像不像”,而是进一步追问:

机器人有没有真正接触到目标物体?

任务关键步骤是否完整出现?

多个物体或多个主体之间的关系是否合理?

机器人形态在运动过程中是否保持稳定?

长时序动作是否符合任务逻辑?

因此,R-Bench不只是一个排行榜,更可以作为机器人视频生成数据的“物理质量过滤器”:它能够评估生成视频是否满足接触关系、动作顺序、形态稳定性和任务完成度等物理约束,从而帮助筛选出更符合物理规律、可用于具身智能训练的数据。

为了捕捉这些问题,R-Bench设计了一套可复现的自动化评测指标体系,能够识别机器人形态畸变、物体属性漂移、部件漂浮或穿模、无接触抓取、凭空出现物体、关键动作缺失等常见失败模式。

更重要的是,R-Bench与人工评测表现出高度一致性,Spearman相关系数达到0.96。这意味着它不仅是一个自动化打分工具,也在很大程度上对齐了人类对“物理合理性”和“任务完成度”的判断。

Cosmos 3 登顶开源榜,R-Bench新结果说明了什么?

在最新 R-Bench Leaderboard 中,Cosmos 3 系列成为开源社区最亮眼的模型之一。

其中,Cosmos3-Nano以0.584的综合得分位列开源模型第一,成为当前 R-Bench 上的开源Top-1;Cosmos3-Super也取得了0.581的综合得分,展现出稳定的具身视频生成能力。

这说明,以 Physical AI 为目标的视频世界模型,已经开始在机器人图像到视频生成任务上体现出竞争力。相比传统通用视频模型,Cosmos 3 的优势并不只是画面质量,而是更接近具身智能所需要的物理模拟、动作延展和世界生成能力。

同时,R-Bench的整体结果也揭示了一个现实:闭源商业模型在综合能力上仍然领先,但开源模型正在快速追赶。对于研究社区而言,这种变化尤其重要。因为真正推动 Physical AI 发展的,不只是更强的单个模型,还包括可复现的评测基准、开放的数据集和可持续迭代的训练体系。

R-Bench 看到的不只是排名,还有失败模式

从 R-Bench 的量化结果可以看到,当前视频生成模型在具身场景中的瓶颈非常集中。

第一,许多模型已经能生成较自然的大幅运动,例如移动、转身、整体姿态变化,但在精细操作上仍然容易失败。抓、捏、拧、插、放置等动作对接触建模要求更高,也是当前模型最容易出错的部分。

第二,视频模型在长时规划中仍然存在明显短板。一个视频看起来连续,并不意味着任务逻辑正确。模型可能生成了流畅动作,却遗漏关键步骤,或者在顺序上出现错误。

第三,通用视觉知识与机器人领域数据之间还没有形成足够强的协同。纯通用视频数据能带来丰富的世界知识,但缺少机器人交互;纯机器人数据又常常规模有限、形态单一。如何把两者结合起来,是 Physical AI 视频模型继续提升的关键。

这些结论让 R-Bench 的意义超出了“排行榜”。它更像是一面镜子,把视频生成模型在物理世界中的真实短板暴露出来。

RoVid-X:为 Physical AI 准备的百万级机器人视频数据

如果说 R-Bench 负责发现问题,那么 RoVid-X 试图提供继续前进所需的数据基础。

团队近期已在 Hugging Face 上开源RoVid-X数据集的重要子集,包含3M 机器人视频。完整 RoVid-X 数据规模达到4M 机器人视频片段、10K+小时视频内容、1300+细粒度机器人技能,并提供RGB、深度、光流等多模态物理标注。

与通用互联网视频不同,RoVid-X的目标不是让模型学会“拍得好看”,而是让模型接触到更多真实或接近真实的机器人交互过程:物体如何被抓取,机械臂如何接近目标,任务如何被分解,动作和环境如何共同形成物理约束。

这种数据对于视频世界模型尤其关键。因为物理理解不是简单靠提示词补出来的,而需要模型在大量交互数据中学习接触、顺序、力学关系和结构稳定性。

实验结果也显示,引入 RoVid-X 数据后,模型在具身任务中的表现能够获得稳定提升。例如在 Wan 系列模型上,经过 RoVid-X 微调后,模型在操作执行、长时规划和空间理解等维度均有明显改善。这说明高质量、结构化的机器人视频数据,确实能够提升视频生成模型面向具身场景的可执行性与稳定性。

从视频生成到物理世界模拟

这项工作的价值,不只是提出了一个新 benchmark 和一个新dataset,而是把视频生成模型放到了 Physical AI 的语境中重新审视。

过去,视频生成更多服务于内容创作:广告、短片、影视、视觉特效。未来,它可能成为机器人训练、仿真环境构建和具身智能数据闭环的重要基础设施。

当模型开始理解接触、顺序、结构稳定性和动作后果,视频生成就不再只是“生成一段看起来合理的视频”,而是在向“可用于物理世界推演的世界模拟引擎”靠近。

R-Bench 和 RoVid-X 正是在这个转向中补上两块关键拼图:一个回答“如何评估”,一个回答“如何训练”。

随着 Cosmos 3 等 Physical AI 视频世界模型进入 R-Bench 榜单并取得开源Top-1,具身视频生成的竞争也正在从单纯比拼视觉效果,转向更接近真实世界的物理理解和任务执行能力。

对于开源社区而言,这或许是一个更重要的信号:Physical AI 的进展,不只属于闭源模型和商业系统,也可以建立在开放评测、开放数据和开放模型共同演化的基础之上。

后续,研究团队还将继续探索从生成视频中反推出可执行动作的 Inverse Dynamics Model,进一步打通视频生成、策略学习与真实机器人部署之间的闭环。

视频生成模型的下一站,可能真的不只是“拍电影”,而是模拟、理解并参与真实物理世界。
反馈
联系我们
推荐订阅