中关村论坛官宣！生数科技发布通用世界模型战略，加速物理AI布局

优企酷·2026-04-01

3月29日，由海淀区人民政府与北京国有资本运营管理有限公司联合主办的2026中关村论坛年会“人工智能主题日”特色主题论坛“AI未来论坛

3月29日，由海淀区人民政府与北京国有资本运营管理有限公司联合主办的2026中关村论坛年会“人工智能主题日”特色主题论坛“AI未来论坛：跃迁·投资·共生”在中关村国际创新中心成功举办。论坛汇聚全球顶级投资人、产业领袖与前沿创新者，围绕人工智能从技术突破迈向产业价值的关键路径展开深入探讨。

在“前沿Tech Show”环节，生数科技创始人、清华大学人工智能研究院副院长朱军教授发表题为《通用世界模型：连接数字世界与物理世界的桥梁》的主题演讲，系统阐述了生数科技在通用世界模型方向的战略布局与技术路径。

在长期的视频大模型的技术积累上，生数科技逐步构建起一条清晰的通用世界模型的战略布局：以基座世界模型（Foundation World Model）为核心底层，向上延展出贯通数字空间与物理空间的双轨体系，形成面向通用智能的核心基础架构。

在底层能力上，该基座世界模型基于全球首创的U-ViT架构，积累视觉、听觉、触觉等多模态信息，构建对世界的统一认知与建模能力，为上层应用提供统一的智能底座。

在数字空间，生数科技基于世界生成模型（WGM）打造视频大模型产品 Vidu。Vidu生成模型聚焦单时点模拟世界，赋能AI在数字世界的生产力。流式生成模型，聚焦多时点模拟世界，实现实时陪伴和交互。Vidu显著提升了数字内容的生产效率，最终实现数字世界的AGI。

在物理空间，生数科技基于世界行动模型（WAM）构建统一世界模型产品Motus。Motus作为真实世界具身智能的“大脑”，致力于解决传统具身智能链路割裂、数据稀缺、泛化能力弱等核心痛点，可实现真实世界下的零样本泛化与跨本体适配，推动机器人从“模块化执行”向“统一智能体”跃迁，最终实现物理世界的AGI。

由此，生数科技构建起贯通理解世界、生成世界与行动于世界的完整技术闭环，使通用世界模型真正成为连接数字世界与物理世界的桥梁。

人类如何行动，AI就应如何理解世界

演讲开篇，朱军从一个直观现象切入：人在骑车、行走或完成任何复杂动作时，大脑内部始终在运行一个“世界模型”。这个模型持续完成三件事：对环境的感知、对未来的预测、对行动的决策。“这是人类智能最自然的一种能力。”朱军表示。

而当前的AI系统，虽然在单点能力上取得了突破，但整体上仍然是“割裂”的。有的擅长生成，有的擅长理解，有的用于执行，但很少有系统能够统一完成这三件事。如果机器要真正具备智能，就必须具备类似人类的世界模型能力。

通用世界模型：通向AGI的关键路径

在学术界，2018年 David Ha 与 Jürgen Schmidhuber 曾提出经典框架，将世界模型拆解为三个核心能力：感知、预测与行动。在此基础上，朱军指出，通用世界模型正在成为通向AGI的重要方向。

通用世界模型的核心，不是叠加更多模块，而是回到第一性原理：用一个统一架构，完成感知、认知、预测与行动。这意味着，AI不再是多个模型的拼接，而是一个完整的智能系统。

“人只有一套系统，但可以完成所有智能行为，这正是我们需要的方向。”

而在实现通用世界模型的路径上，数据是最核心的约束之一。

长期以来，具身智能面临“数据墙”：真实世界的轨迹数据成本高、规模小，难以支撑模型泛化。对此，朱军提出一个关键判断：视频，是当前最接近真实世界的数据形态。

相比语言，视频天然包含：时间信息、空间结构、物理交互过程。这使其成为连接数字世界与物理世界的关键载体。

基于这一判断，生数科技构建了以视频为核心的数据体系——从海量互联网视频，到第一视角操作视频，再到机器人数据，形成一个可扩展的数据金字塔。在这一体系下，即使缺乏大量标注数据，模型依然能够学习到有效的行动能力。

Motus：统一世界模型的实践验证

基于统一架构与视频数据路径，生数科技联合清华大学开源了统一世界模型 Motus。实现了多模态能力的系统性整合。

在模型架构上，Motus基于 UniDiffuser 统一建模框架，通过跨模态先验融合（Cross-modal Priors Fusion），将视觉语言知识（VLM）、视频动态知识（Video Generation Model）与动作技能知识（Action Expert）整合进同一模型，实现语言、视频与动作的统一表达与生成，构建真正意义上的统一世界模型。

在数据利用与规模扩展方面，Motus展现出显著优势。在数据规模扩展实验（Data Scaling）中，相较国际领先的VLA模型 Pi0.5，Motus能够从更广泛的异构数据中学习，并有效融合预训练基座模型中的多模态先验能力。在50个任务的平均成功率上，Motus实现了35.1%的绝对提升，同时在相同性能水平下展现出13.55倍的数据效率。

在任务规模扩展实验（Task Number Scaling）中，随着任务数量增加，Motus的平均成功率持续提升，而对比模型Pi0.5则随任务复杂度提升出现性能下降。最终，Motus实现了37%的绝对成功率优势，体现出更强的多任务泛化能力。

更值得注意的是，Motus率先揭示了具身智能Scaling的新维度——多任务泛化能力曲线。这一曲线为具身基座模型提供了关键的“北极星指标”，其演进路径与语言模型的发展高度一致，也呼应了 GPT-2 所提出的“Language Models are Unsupervised Multitask Learners”的核心思想，被喻为具身智能的“GPT2”时刻。

在长程、多步骤的复杂真机任务中，Motus 进一步呈现出接近人类水平的决策逻辑与执行稳定性。

具体而言：在验证码操作任务中，通过机械臂模拟人类鼠标操作，可以实现对屏幕内容的精准识别与高精度点击。在棋类决策任务中，面向长程规划与多步推理场景，协同完成环境感知、状态预测与策略决策。在柔性物体操作任务中，针对复杂、非刚性物体，实现稳定感知与自适应抓取控制。

面向未来，生数科技将继续坚持以原创技术为底座，围绕通用世界模型持续推进底层架构、数据体系与应用场景的协同突破。

从视频模型到世界模型，从数字空间到物理空间，生数科技正在探索一条更完整的通用智能路径。随着相关技术持续演进，通用世界模型也将加快走向真实产业场景，释放更大的技术价值与应用潜力。