3月29日,由海淀区人民政府与北京国有资本运营管理有限公司联合主办的2026中关村论坛年会“人工智能主题日”特色主题论坛“AI未来论坛:跃迁·投资·共生”在中关村国际创新中心成功举办。论坛汇聚全球顶级投资人、产业领袖与前沿创新者,围绕人工智能从技术突破迈向产业价值的关键路径展开深入探讨。
在“前沿Tech Show”环节,生数科技创始人、清华大学人工智能研究院副院长朱军教授发表题为《通用世界模型:连接数字世界与物理世界的桥梁》的主题演讲,系统阐述了生数科技在通用世界模型方向的战略布局与技术路径。
在长期的视频大模型的技术积累上,生数科技逐步构建起一条清晰的通用世界模型的战略布局:以基座世界模型(Foundation World Model)为核心底层,向上延展出贯通数字空间与物理空间的双轨体系,形成面向通用智能的核心基础架构。
在底层能力上,该基座世界模型基于全球首创的U-ViT架构,积累视觉、听觉、触觉等多模态信息,构建对世界的统一认知与建模能力,为上层应用提供统一的智能底座。
在数字空间,生数科技基于世界生成模型(WGM)打造视频大模型产品 Vidu。Vidu生成模型聚焦单时点模拟世界,赋能AI在数字世界的生产力。流式生成模型,聚焦多时点模拟世界,实现实时陪伴和交互。Vidu显著提升了数字内容的生产效率,最终实现数字世界的AGI。
在物理空间,生数科技基于世界行动模型(WAM)构建统一世界模型产品Motus。Motus作为真实世界具身智能的“大脑”,致力于解决传统具身智能链路割裂、数据稀缺、泛化能力弱等核心痛点,可实现真实世界下的零样本泛化与跨本体适配,推动机器人从“模块化执行”向“统一智能体”跃迁,最终实现物理世界的AGI。
由此,生数科技构建起贯通理解世界、生成世界与行动于世界的完整技术闭环,使通用世界模型真正成为连接数字世界与物理世界的桥梁。

人类如何行动,AI就应如何理解世界
演讲开篇,朱军从一个直观现象切入:人在骑车、行走或完成任何复杂动作时,大脑内部始终在运行一个“世界模型”。这个模型持续完成三件事:对环境的感知、对未来的预测、对行动的决策 。“这是人类智能最自然的一种能力。”朱军表示。
而当前的AI系统,虽然在单点能力上取得了突破,但整体上仍然是“割裂”的。有的擅长生成,有的擅长理解,有的用于执行,但很少有系统能够统一完成这三件事。如果机器要真正具备智能,就必须具备类似人类的世界模型能力。

通用世界模型:通向AGI的关键路径
在学术界,2018年 David Ha 与 Jürgen Schmidhuber 曾提出经典框架,将世界模型拆解为三个核心能力:感知、预测与行动。在此基础上,朱军指出,通用世界模型正在成为通向AGI的重要方向。
通用世界模型的核心,不是叠加更多模块,而是回到第一性原理:用一个统一架构,完成感知、认知、预测与行动。这意味着,AI不再是多个模型的拼接,而是一个完整的智能系统。
“人只有一套系统,但可以完成所有智能行为,这正是我们需要的方向。”
而在实现通用世界模型的路径上,数据是最核心的约束之一。
长期以来,具身智能面临“数据墙”:真实世界的轨迹数据成本高、规模小,难以支撑模型泛化。对此,朱军提出一个关键判断:视频,是当前最接近真实世界的数据形态。
相比语言,视频天然包含:时间信息、空间结构、物理交互过程。这使其成为连接数字世界与物理世界的关键载体。
基于这一判断,生数科技构建了以视频为核心的数据体系——从海量互联网视频,到第一视角操作视频,再到机器人数据,形成一个可扩展的数据金字塔。在这一体系下,即使缺乏大量标注数据,模型依然能够学习到有效的行动能力。

Motus:统一世界模型的实践验证
基于统一架构与视频数据路径,生数科技联合清华大学开源了统一世界模型 Motus。实现了多模态能力的系统性整合。

在模型架构上,Motus基于 UniDiffuser 统一建模框架,通过跨模态先验融合(Cross-modal Priors Fusion),将视觉语言知识(VLM)、视频动态知识(Video Generation Model)与动作技能知识(Action Expert)整合进同一模型,实现语言、视频与动作的统一表达与生成,构建真正意义上的统一世界模型。

在数据利用与规模扩展方面,Motus展现出显著优势。在数据规模扩展实验(Data Scaling)中,相较国际领先的VLA模型 Pi0.5,Motus能够从更广泛的异构数据中学习,并有效融合预训练基座模型中的多模态先验能力。在50个任务的平均成功率上,Motus实现了35.1%的绝对提升,同时在相同性能水平下展现出13.55倍的数据效率。
在任务规模扩展实验(Task Number Scaling)中,随着任务数量增加,Motus的平均成功率持续提升,而对比模型Pi0.5则随任务复杂度提升出现性能下降。最终,Motus实现了37%的绝对成功率优势,体现出更强的多任务泛化能力。
更值得注意的是,Motus率先揭示了具身智能Scaling的新维度——多任务泛化能力曲线。这一曲线为具身基座模型提供了关键的“北极星指标”,其演进路径与语言模型的发展高度一致,也呼应了 GPT-2 所提出的“Language Models are Unsupervised Multitask Learners”的核心思想,被喻为具身智能的“GPT2”时刻。
在长程、多步骤的复杂真机任务中,Motus 进一步呈现出接近人类水平的决策逻辑与执行稳定性。
具体而言:在验证码操作任务中,通过机械臂模拟人类鼠标操作,可以实现对屏幕内容的精准识别与高精度点击。在棋类决策任务中,面向长程规划与多步推理场景,协同完成环境感知、状态预测与策略决策。在柔性物体操作任务中,针对复杂、非刚性物体,实现稳定感知与自适应抓取控制。
面向未来,生数科技将继续坚持以原创技术为底座,围绕通用世界模型持续推进底层架构、数据体系与应用场景的协同突破。
从视频模型到世界模型,从数字空间到物理空间,生数科技正在探索一条更完整的通用智能路径。随着相关技术持续演进,通用世界模型也将加快走向真实产业场景,释放更大的技术价值与应用潜力。







