RoboScience机器科学发布通用具身大模型Visics，首次完整展示VLOA双引擎架构

优企酷·今天 15:00

跨本体、跨物体、跨任务，开启具身智能新时代。

6月24日，通用具身智能企业RoboScience机器科学在深圳成功举办通用具身大模型发布会。会上，公司首次完整披露了自研Visics大模型的技术架构VLOA（Vision-Language-Object-Action），并展示了模型在多项真实场景的应用，包括全球最复杂具身操作任务家具拼装。

RoboScience机器科学创始人兼CEO田野、联合创始人兼执行总裁汪涛深度解读了Visics大模型、底层技术架构VLOA和数据体系，并分享了未来在模型泛化、场景落地及生态构建等方面的战略规划。

Visics大模型重新定义具身智能

RoboScience机器科学创始人兼CEO田野指出，当前机器人操作面临泛化能力差、精细操作难、长程任务误差累积三大核心瓶颈。Visics大模型的突破在于首次通过自研技术架构VLOA，将Object Trajectory（物体3D点云轨迹）作为中间接口，把“认知”与“执行”彻底解耦。他表示：“Object 这个词本身有‘物体’和‘目标’两种意思，所以它精确地描述了机器人本体跟物体要发生什么样的交互、要完成什么样的物体运动状态的变化。我们自研以Object Trajectory为中心的 VLOA 架构，是因为它往上能够精确地表示我们执行任务的内容，往下能够精确地表示机器人要完成什么目的。”

VLOA（Vision-Language-Object-Action）创新架构实现了三大维度泛化：指导任意机器人、操作任意物体、完成任意任务。以抓取操作为例，相比现有基于特定物体和机械臂的方法，其在成功率、姿态多样性及计算速度上均有显著提升。

Visics大模型融合“具身世界模型”和“通用操作模型”两大核心引擎，创新性地引入Object Trajectory作为中间接口，并以物体的连续3D点云轨迹进行表征。上层具身世界模型负责认知和预演物理轨迹，下层通用操作模型负责将轨迹转化为不同机器人的物理控制信号，实现了高层语义与底层物理规律的完美解耦，并分别用海量互联网视频及仿真数据进行预训练。

• 具身世界模型：相比当前以视频预测为中心的世界模型路线，RoboScience机器科学的具身世界模型是以物体交互为中心且3D动态的，架构更接近机器人真实执行所需的底层表示。其核心并不是在VLA之上外挂一个视频生成模块，不需要渲染宏大的世界，也不需要到像素级别，而是围绕具身操作所需的物体级状态、三维轨迹、接触关系和物理因果变化构建世界模型，并与执行层（通用操作模型）形成统一闭环。

• 通用操作模型：模型通过「物理引擎-仿真数据-端到端训练」的高效闭环，解决泛化性与灵巧操作难题。可支持刚体、铰链体、1D/2D/3D可形变体等全空间物体的各类操作任务；支持跨本体，支持不同类型的各种机器人及末端执行器；支持闭环操作（closed-loop）；支持含视觉、触觉、力觉等多模态感知数据。

「仿真+视频」数据飞轮，实现高精度复杂自主操作

在具身智能领域，数据是模型能力的根基，但传统数据路线正面临成本与产能的双重天花板。

在预训练阶段，依赖真机采集的方案月产能仅为万条级，远不能满足大模型对数据规模的指数级需求；在后训练阶段，单任务的复杂操作演示需要上万条人工标注数据，人力与时间成本随任务数量线性累加。更关键的是，数据工厂环境采集的数据与真实应用场景存在分布差异，模型难以在实际落地中稳定泛化。

RoboScience机器科学选择了一条截然不同的路径。联合创始人兼执行总裁汪涛分享，公司以自研高精度仿真引擎RoboMirage为核心，结合全自动视频数据标注与清洗管线，构建了“仿真+视频”双数据飞轮。这一体系将单条数据的获取成本降至传统方案的1/20~1/200，同时以每周数十万小时的增速持续扩展，从根本上突破了数据规模与成本的双重瓶颈，为Visics大模型实现LLM级别的万亿级数据Scale-up奠定了基础。

在具体构成上，双数据飞轮可分为两大板块：

具身世界模型的预训练基于海量互联网视频数据。通过全自动数据标注及清洗pipeline，团队已积累数百万小时以物体为中心的高维多模态操作相关数据集（数千万video clips），并以每周数十万小时的速度增长，目标在2026年构建上千万小时的全球领先数据集。

而作为通用操作模型学习物理规律的基础，RoboScience机器科学通过自研多模态物理引擎RoboMirage积累了数百亿次高质量manipulation操作轨迹数据集，2026年目标是构建超过1T高质量manipulation操作轨迹数据集（1万亿次全空间物体的manipulation操作轨迹数据）。

这一数据体系有效降低了对昂贵真机数据的依赖，为Visics大模型持续进化提供了不竭燃料。

Visics大模型可全程自主完成具身操作领域内最复杂任务家具拼装，并实现毫米级精度抗干扰。家具拼装任务被业内视为具身智能领域的“登月级”挑战，涉及手内操作、双臂协同、毫米级插接、精细力控、物体重排、部件嵌入与旋转配合等几乎所有技术难点。机器人读取说明书后自主启动拼装：深度理解零件结构逻辑，实现多部件检测、感知与定位，自主分解多步骤任务，完成多关节双臂协同运动。依托自适应插接路径规划和精细接触力调控策略，系统成功实现高精度、高稳定性拼装。尤其值得注意的是，当拼装过程中人为拆解已装好的部件时，机器人能够自动恢复状态并接续完成后续步骤。

此外，RoboScience机器科学还展示了跨本体灵巧手抓取（青椒包覆抓取、西瓜瓣精准捏取）、精细力控操作（开信封、立硬币、抓取薯片、针管注射）以及动态传送带抓取等操作，全面展示了Visics大模型在任意物体抓取、精细操作和长程任务上的通用能力。

学术+产业双轮驱动，标准化本体即将量产

RoboScience机器科学拥有一支“学术+产业”双轮驱动的顶尖团队：首席科学家邵林团队连续两年获得ICRA最佳论文奖/提名，成为亚洲唯一获此殊荣的团队，其最新研究T(R,O)Grasp，可支持5 FPS实时动态交互，以94.83%的平均抓取成功率刷新了跨智能体灵巧抓取的全球SOTA。CEO田野曾担任苹果AI Platform技术负责人，打造了被誉为“苹果的PyTorch与CUDA”的核心平台。联合创始人刘朋海拥有科沃斯集团二十年产品量产经验，汪涛具备近十年产业投资与募资经历。团队整体集结了来自斯坦福、中科大、新加坡国立大学等学府以及苹果、字节、腾讯、大疆等头部企业的顶尖人才。

在资本层面，公司已获得京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家CVC和财务机构的投资及产业支持，在北京、深圳、苏州、杭州设有研发和生产中心。商业化落地方面，RoboScience机器科学已与多家零售、物流、康养服务企业及机器人本体、灵巧手公司开展试点合作，并计划于今年实现面向工业与商业场景的标准化机器人本体产品量产。

RoboScience机器科学以大模型为核心，纵向打通自研本体、控制器与RobotOS，横向赋能模型泛化、便捷开发与多层级生态，构建软硬一体、闭环协同的商业模式。

汪涛在会上分享了RoboScience机器科学的商业化思考与战略路线。他指出，具身智能真正的规模化落地尚未到来，公司需要选择一条清晰且有节奏的路径。RoboScience机器科学选择先从物体维度切入，即解决对刚性、柔性及各种属性物体的泛化操作能力，而非直接进入工业场景与自动化方案竞争。如商超、电商物流等场景，天然面临海量SKU、多品类的拣选与补货需求，正是验证物体维度泛化能力的最佳试验场。在真实场景中干活所产生的数据，又能反哺大模型持续进化，形成正向循环。

基于这一思考，公司将分阶段推进商业化落地：

当前阶段，重点打磨Visics大模型能力，聚焦物体维度的泛化突破，在商超、电商物流等高频、多品类场景完成POC验证，用真实场景数据持续迭代大脑。

中短期，在物体维度泛化基础上，逐步扩展至任务维度与机器人维度，从更多任务类型和跨本体部署两个方向延伸泛化边界。推动自研硬件本体量产落地，推出具身智能操作系统与开发平台，将应用场景拓展至酒店、工厂等更多B端领域。届时大脑能力经过一段时间的场景迭代已足够泛化，硬件供应链体系更加完善，成本大幅下降——为进入家庭场景（如干家务）做好技术与成本准备。

长期，将实现B端与C端场景的规模化落地。打造具身智能时代的“App Store”，构建全球化机器人应用生态，同时完善硬件供应链，布局全球业务，让机器人真正服务于每一个家庭。

在商业模式上，RoboScience机器科学不绑定自己的硬件销售。基于跨本体的技术原理，模型学习不依赖特定硬件数据，因此公司可以灵活选择纯软件授权、控制器方案等多种交付方式，既服务自研本体，也赋能其他机器人公司拓展更多场景。

田野最后总结表示：“在我们所想象的未来图景里，机器人不是成为人类的替代者，而是成为人类文明的增幅器，Visics大模型就是我们在这一方向上迈出的关键一步。我们希望具身智能的技术能够加速文明和科技的发展，给每个人带来更美好的生活。这就是我们RoboScience机器科学的目标——构建通用的具身智能，赋能美好的人类生活。”