
作者丨杨婧雪
编辑丨刘恒涛
图源丨深度机智
物理AI作为下一代人工智能的核心方向,已经成了全球科技竞争的卡脖子必争之地。
但喊了三年的具身智能,落地难的痛点始终没解决:通用基座模型缺位,定制化场景成本高,泛化能力弱……行业一边扎堆卷硬件Demo,一边在找真正能规模化落地的路径。
最近,一家拥有国家队背景的公司,给出了不一样的答案。
6月26日,由北京中关村学院与中关村人工智能研究院联合孵化的全栈物理AI标杆企业「深度机智」宣布完成数亿元新一轮融资,由国寿长三角科创基金领投,普华资本、诚通科创基金等老股东持续加注,蓝湖资本、博彦科技、磐谷创投、朝晖资本、财鑫资本、道禾长期投资、易高资本、明德资本等市场化与产业资本共同参与。
本次融资,距离公布上一轮仅一个月。资本持续押注,看中的不是又一家做机器人硬件的公司,而是它走了一条完全原创的路——在业内率先定义的“人类学习”原创技术路线,以及成立仅一年就跑通数据、模型、本体、场景全链路的全栈能力。
过去一年中,同样高度关注人类第一视角数据的,还有不少国际巨头和海外具身智能公司。比如特斯拉、具身智能独角兽公司Generalist AI,以及英伟达,但深度机智的核心技术布局,却比美国同类项目早了近一年。
2026年6月,深度机智先后登陆央视《朝闻天下》与《新闻联播》,成为产学研协同创新的标杆范本。在物理AI从“拼Demo”转向“拼落地”的分水岭,路线+全栈的双重先发优势,正在变成这家公司最深的护城河。


提前押注人类学习路线
完成机器人零样本验证
深度机智创始人陈凯是科学家出身,毕业于中科大少年班学院自动化专业,是中科大与微软亚洲研究院联合培养博士,曾任微软亚洲研究院首席研究员、北京智源人工智能研究院研究员。现任北京中关村学院导师、中关村人工智能研究院研究员。

央视新闻陈凯
过去十多年,陈凯一直在深耕人工智能领域,经历过深度学习技术萌芽期。ChatGPT发布后,他开始思考:如果数字世界已经出现了通用大模型,物理世界是否也会出现类似路径?
但物理世界的AI,与数字世界的AI最大不同是数据。
通用大模型的训练数据是现成的,背后是已经运行几十年的互联网和人类几千年积累下来的文字知识。但用于机器人学习的东西,过去没有被系统记录过。“具身智能领域,整个数据基础都还没有建立起来。”陈凯说。
陈凯注意到人类第一视角数据,是2024年底Meta Aria智能眼镜发布视频的时候。
其中宣传片中闪过一个两秒镜头——机器人戴上了智能眼镜,这彻底启发了陈凯。智能眼镜本身带有摄像头,能以人类第一视角记录人和世界交互的视频数据。“用这种数据去训练机器人,可能是具身智能一个非常大的突破口。”陈凯表示。
为什么一定要人类第一视角数据?
陈凯认为,人类第一视角数据本身包含了空间结构和客观物理规律的信息。首先要让机器人知道人看到的世界是什么样的,主要是了解物体位置、距离、大小等空间关系。其次,机器人通过这些数据还能理解世界的变化,掌握物理规律知识。最后,这些数据还能让机器人理解人如何和世界交互,包括人的意图、动作和动作形态。
彼时,用人类第一视角数据训练具身模型,并非主流路线。
更主流的模型训练路线是VLA端到端训练和世界模型+Sim2Real仿真协同训练,用的分别是真机数据和仿真数据。但两者都有痛点:仿真数据部署到真机极易失效、泛化能力差,甚至需要真机数据微调;而真机数据采集成本高,在机器人商业化初期难以形成数据飞轮效应。基于此,陈凯和大学室友、科大少院应用物理专业的张翼博,确定了用人类第一视角数据训练机器人基座模型的技术路线,并在2025年5月联合创办深度机智。

深度机智作为国内首家提出并系统践行“人类学习”路线的企业,仅过去一年,就率先在机器人身上验证人类第一视角数据训练模型的可行性,并在2026年6月完成零样本(zero-shot)验证。
在这次验证中,机器人在从未进行过本体专项训练,从未使用任何真机数据或仿真数据的情况下,仅凭一个模型,就完成了一些全新的简单任务。该模型完全基于人类第一视角数据训练而来。没有复杂的重定向,而是纯粹的数据驱动。
陈凯表示,这意味着深度机智的技术路线已经完成了全栈闭环。“之前我们都是散点能力,能采集数据、处理数据、训练模型、做出机器人本体。这次验证,把我们的全栈能力集中体现在一个机器人身上。”陈凯说。

先理解再执行
打造具身智能全栈系统能力
陈凯表示,用人类数据训练机器人,要让机器人“先理解、再行动”。而让机器人像人一样理解世界,核心是要做一个具有通用能力的基座模型。这也是深度机智在过去一年研发工作的核心。“但我们必须围绕着模型开发,把数据采集、数据处理、本体设计全链条跑通。”陈凯说。首先要解决的是源头的数据问题。2025年,陈凯根本找不到适合的数据供应商,他和团队不得不从零开始,做了一款分体式头戴数采设备。
但更难在于,如何才能把这些采集来的人类第一视角视频数据转译成机器可学习的数据?比如人伸手拿杯子,不会考虑杯子和人体的距离、杯柄朝向、多大力气拿起杯子。但机器学习需要这些数据,才能完成任务。
为此,深度机智搭建了面向物理AI的数据处理体系。与传统机器人数据更多关注末端轨迹不同,深度机智更关注从人类第一视角数据中提取可被模型学习的物理常识。在陈凯看来,人类第一视角数据的价值并不只是记录“手怎么动”,而是帮助模型理解“为什么这样动”“动作如何改变世界”“人在任务中如何判断和调整”。因此,深度机智的数据体系不是简单做动作拟合,而是将真实世界中的人类行为转化为可被具身智能模型学习的时空经验。

其次要解决的,是机器人本体与模型之间的协同关系。深度机智并不是为了做硬件而做机器人,而是从“Robot for AI”的理念出发,为AI模型设计更合适的身体。在陈凯看来,具身智能不能把模型和本体割裂开来。只有理解数据怎么来、模型怎么训练,才知道机器人应该如何设计;也只有理解机器人如何运动,才知道模型需要学习什么。既然深度机智选择从人类数据出发,那么更适合承载这条路线的本体,就应当尽可能接近人的结构、比例、自由度和活动范围,从而降低人类动作经验向机器人系统迁移的难度。
陈凯和团队找了2个月,都没在市面上找到符合要求的本体。
恰在这时,陈凯遇到了老朋友何旭国。何旭国深耕机器人本体领域十余年,也是“机器人奥运会”青少年国家队的总教练。听了陈凯提出“用人类数据构建具身智能基座模型”的设想后,何旭国被这件事的长期价值打动,决定用自己在机器人本体上的积累,和陈凯、张翼博一起推进具身AGI方向。
有了何旭国的加入,深度机智在拟人体本体设计上快速推进。团队围绕“为AI设计机器人”的理念,从结构比例、自由度、活动范围、控制精度等方面进行重新设计,最终推出全尺寸拟人体机器人Prime,使其成为承载人类数据到机器人执行迁移的重要系统载体。

何旭国
让团队兴奋的是,在早期仅使用约千小时规模的人类第一视角数据进行验证时,模型已经开始表现出对物理世界更强的理解能力。随着数据规模扩大,深度机智观察到一个明显趋势:模型对真实机器人数据的依赖在下降,同时在一些没有被显式规则写入、也没有在真机数据中直接出现过的场景里,机器人开始表现出更灵活的泛化行为。
让陈凯和团队振奋的案例,是机器人推送胡萝卜的任务。当时,团队让机器人学习的是抓、拿、放这三个动作。但在一次任务里,机械臂夹起胡萝卜掉落后,机器人并没有重新选择抓取,而是把胡萝卜往盘子里推。一个角度推不进去,换了个角度,用加速方式推。最后发现还是推不进去,才把胡萝卜抓起来放进盘子。
“当时机器还不会推这个动作,只有人类才会出现这一行为,机器人是通过我们模型学习,自然而然迁移学会了推。”陈凯说,“这是直接实现泛化,通过基座模型的能力,让机器人涌现出了之前不会的行为。”这说明,人类数据中蕴含的操作策略和物理常识,可能通过基座模型迁移到机器人执行中,并在具体任务中表现出一定的泛化能力。
以上都属于帮助机器人“理解”要做的事情范畴。
在完成对物理世界理解能力的早期验证后,深度机智开始进一步推进模型能力向真实机器人执行迁移。此前,团队已经在常见机器人平台上验证过:当模型对物理世界的理解能力提升后,完成具体任务所需的机器人真机数据会减少;在同等数据量下,任务效果也会更好。
真正让团队确认路线闭环的,是近期完成的zero-shot验证。团队基于物理常识增强的基座模型,从人类完成任务的数据中提取动作信息,并用这些数据训练机器人动作策略。整个过程中,模型没有使用深度机智这款拟人体机器人的真机数据,却能够驱动其完成相关基础任务。
陈凯也强调,当前验证仍处在早期阶段,机器人能够完成的是一些基础任务,成功率和任务复杂度还需要继续提升。但在他看来,单单这个现象已经证明:通过人类数据、通过人类学习范式去构建具身智能模型,这条路径是可行的。
接下来,深度机智要解决的是工程化、规模化和成功率提升问题,让机器人能够处理更多、更复杂的任务。“我们要做的事情,就是坚定地朝着通用性进发。”陈凯说。

沿途下蛋:
全栈能力进入真实客户场景
深度机智的全栈路线,也让公司在商业化上实现了“无心插柳柳成荫”的效果:公司并不急于把基座模型能力包装成单点场景交付,而是围绕物理AI基座模型长期演进。但围绕这一目标沉淀出数据采集、本体系统、遥操作和开发平台等全栈能力,已经可以进入真实需求场景,并在客户侧形成验证。
目前,深度机智的数采设备、教育机器人、人形机器人及其遥操作系统等产品方向均已进入真实客户场景,并在各个方向的产品线形成了商业落地,累计完成了数千万元级订单,显示出市场对物理AI全栈能力的真实需求。
这些业务并不是偏离主线的短期变现,而是深度机智在构建物理AI基座模型过程中自然沉淀出的能力。教育机器人Prime Lite面向中学、高校和开发者场景,帮助学生从结构设计、硬件装配、数据采集到模型训练和部署,完整理解具身智能系统如何工作;数采设备及解决方案进入实验室、护理、工业等真实任务环境,用于工作流程记录、操作规范辅助和物理技能沉淀;高精度、低延迟遥操作系统则面向高危、异地和精细操作场景,为机器人进入真实任务环境提供早期解决方案。

陈凯将这种商业化节奏称为“沿途下蛋”:一方面,公司不会为了短期交付而让核心模型团队偏离基座模型长期目标;另一方面,围绕基座模型建设形成的数据、硬件、本体和工程能力,也可以先在真实场景中创造价值,并反向积累数据、需求和场景反馈。
在陈凯看来,物理AI真正大规模落地的前提,是基座模型能力达到足够高的阈值,能够显著降低机器人进入不同场景的时间成本和适配成本。“我们希望通过基座模型的开发,将来能够实现一个人一天就解决一个场景。只有达到这样的一个状态,我们才能和各种各样的场景方,和机器人伙伴合作,借助我们的基座模型能力,让机器人进入各个场景,具身智能才会迎来大范围的落地,创造真正的价值。”陈凯说。
本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。







