对话自变量王潜:小米/红杉20亿B轮,"具身,中国一级市场有史以来泡沫最小的大赛道"

中金机器人播客与王潜的这场对话,不仅是一次技术路线的推演,更是一场关于"人类最后一次主动发明创造"的底层思考。

编者按:本文来自微信公众号 华芯资本,创业邦经授权转载。

一、导语

近日,自变量机器人完成近20亿元B轮融资,领投方为小米战投、红杉中国。不久前,美团、阿里和字节分别在A轮、A+轮、A++轮领投或独投自变量机器人。截至目前,自变量已成为国内唯一一家同时被四家互联网大厂投资的具身智能企业。

市场还在争论"人形机器人是不是泡沫"时,自变量机器人创始人王潜已经给出了截然不同的判断:这不是过热,而是"中国一级市场有史以来泡沫最小的大赛道"。2014年与Google同期提出注意力机制、后转向机器人学习的王潜,在2023年顶着投资人"先做专用场景"的压力,坚决选择了"通用模型"这条反直觉路线。

两年过去,他的预言正在应验——没有一家专用模型公司跑出了正ROI,而具身智能的ChatGPT时刻,或许就在未来三到五年。中金机器人播客与王潜的这场对话,不仅是一次技术路线的推演,更是一场关于"人类最后一次主动发明创造"的底层思考。

二、六个核心观察

核心观察一:具身智能是AI的终极战场,而非应用层

王潜认为物理世界AI(具身智能)比虚拟世界AI(大语言模型)更重要,核心逻辑在于Scaling Law的资源瓶颈。虚拟世界AI依赖指数级增长的算力、能源和数据,但地球资源有限;而具身智能实现"机器制造机器"后,可在火星等外星球建立完整经济系统(从基建到算力中心),获得指数级资源增长,才能支撑真正的超级人工智能(ASI)。这是人类摆脱地球资源限制、延续AI发展的唯一路径。

核心观察二:通用模型 vs 专用模型的路线之争已见分晓

王潜在2023年创业初期即判断"先做通用"是唯一技术可行路径,当时投资人普遍不认可。两年过去,没有任何单点专用模型实现正ROI(如打螺丝、物流等场景),验证了其判断。核心机制在于:通用模型通过同时学习1万个任务(每任务1000条数据,共1000万条),学到的不是任务细节,而是背后共同结构(物理规律、基础动作模式),反而比1000万条数据砸在单一任务上效果更好——这是反直觉但根本性的范式转变。

核心观察三:数据工业化是核心竞争力,而非算法架构

行业已完成从"Algorithm-centric"(80%算法+20%数据)到"Data-centric"(80%数据+20%算法)的范式转移。自变量数据管线中有几十上百个模型在看不同事情,形成工业化体系。关键不是数据从哪来(遥操作/人本体/数据工厂/野生环境),而是构建足够好的system和pipeline,让数据收集、处理、对齐过程标准化、可传承。仿真数据在精细操作(manipulation)上效率比真实数据低5-6个数量级,几乎不可用。

核心观察四:中国具身智能投资"过冷"而非"过热"

中国人形机器人赛道几年涌入约500亿人民币,但王潜及资深投资人认为这反而是"泡沫最小的大赛道"。纵向对比自动驾驶、移动互联网、新能源等,具身智能估值最低、融资规模最小,但重要性可能是"人类最后一次主动发明创造"。美国Figure AI估值超400亿美元,中国一级市场萎缩导致投资明显偏少。胜负手在模型而非硬件——美国正以举国体制补足硬件短板,中国假设"硬件优势"非常危险。

核心观察五:2026年是"狼真来了"的洗牌之年

过去两年"机器人商业化元年"喊成"狼来了",但王潜判断2026年"狼真来了"——高ROI产品真正出现,但伴随剧烈洗牌。技术层面三大突破:后训练结合基础模型在垂直场景落地、海外摇操模式进入家庭规模化、模型能力(泛化性/任务复杂度/跨本体/超长序列/推理)大幅提升。软硬一体是终局,但短期工厂场景(后训练驱动)和家庭场景(预训练驱动)是并行路线,长期必须做to C。

核心观察六:就业冲击不可避免,政策宜疏不宜堵

具身智能及AI整体将从根本上否定人类在劳动侧的意义。试图减慢应用速度无意义——"中国减慢,美国不会减慢,且会加速"。应对方式不是堵,而是:微观层面创造增量市场(如家庭服务是纯增量,不替代现有岗位);中观层面产生机器人相关新岗位(数据收集、FAE等);宏观层面必须走向UBI(基本收入)或基本财产制度。国家竞争层面,若机器人抹平制造业比较优势(如中国造船业依赖的高素质工人优势),不做者将彻底被动。

三、访谈对话纪要

访谈来源:中金机器人播客2026

受访人:周老师,中金机器人播客

采访人:王潜博士,自变量机器人创始人兼CEO

第一章:开场与行业回顾

周老师:欢迎来到中金机器人播客。2026年初,人形机器人已能跳舞、拳击,但去掉炫酷的运控,其智能进化到何种程度?今天我们对话自变量机器人创始人王潜。公司位于具身智能核心,比起让机器人“动得好看”,更追求“动得聪明”。王潜本硕毕业于清华大学,于南加州大学攻读机器人学习博士。2014年,他参与提出神经网络注意力机制,后回归机器人赛道,在深圳创立自变量,坚持端到端统一大模型路线。近期,公司刚完成字节跳动和红杉等机构的A+轮融资。

恭喜完成A+轮融资,欢迎来到播客。

王潜:感谢中金,感谢周老师。

周老师:从创业者角度,如何总结过去两年人形机器人产业?

王潜:发展速度超预期,全球皆然。Locomotion(全身协调运动)已基本成熟,可进入大规模生产。但让机器人“有用”、解决操作(manipulation)问题,基础模型变化巨大。两年前创业时,原以为会经历较长平稳期,没想到赛道如冲浪般急促。


第二章:从注意力机制到机器人——路径选择与错过

周老师:您硕士期间与Google同期提出注意力机制,后读机器人博士,似乎错过了Transformer风口。若持续做大语言模型,会改变创业决策吗?

王潜:这是严重的错过。Transformer连带注意力机制是诺贝尔奖级别的工作,过去多年一直后悔。当时选择机器人,是因为2014年深度学习兴起时,感觉CV在安防、金融等应用难以形成商业闭环,需找AI能起核心作用的领域。没想到语言发展如此快。当时认为机器人会更早在物理世界提供劳动力,是AI最重要的应用之一。

周老师:Google发布“Attention Is All You Need”时,也未充分意识到其未来角色?

王潜:他们发布时已有一定意识。2014年我们做那波工作时,确实无人意识到。到2017年,一波人想明白模型规模可快速扩大、Scaling Law成立,Transformer提供了机会。从早期深度学习到大模型,方法论发生巨变:以前没人想到不停把模型变大、增加资源就能无瓶颈上升。

周老师:博士期间学的是机器人专业?

王潜:当时叫Robot Learning,即今天的Embodied AI。

周老师:博士毕业后在美国建立量化基金,据说晚上睡不着,觉得必须做机器人?

王潜:后悔的还是错过Transformer。这种大级别机会少见,亲身经历痛苦错过的感觉,所以坚决回来做机器人。老天给了两次机会,这次必须全力抓住。

周老师:为何不回软件AI,而切入机器人?

王潜:一是继承读博路径;二是经历两个阶段。2021年想创业时,GPT3出现,技术范式已变——它首次实现少样本学习(few-shot learning),正好弥补机器人领域最大痛点:数据问题。

以前用强化学习做机器人,任务越难,数据需求指数级增长。语言、视觉有大量互联网数据,增数据成本低。但机器人增数据成本极高,几十年未找到边际数据成本降低的方式。GPT3时突然发现:语言模型越大,学会新任务的成本反而下降,这与机器人领域任务越难成本越高的困境相反。当时意识到这可能是机器人领域等了80年的“银子弹”。

机器人在所有AI领域发展最滞后。2018-2020年,才首次让机器人完全自主完成“抓取”这一最简单动作,仅5年前。其他AI领域已能做很多事。中间一直缺本质范式转变。

ChatGPT后,两件事推动我:一是不能再等;二是感觉语言模型天然不适合创业公司——用户迁移成本太低,今天用Gemini明天换ChatGPT,无忠诚度。只能把钱重新投回去做循环,变成头部模式。但机器人软硬结合,迁移成本高,有品牌效应,也不易受开源冲击。所以选机器人既有技术、个人经历考量,也有商业考量。


第三章:具身智能的终极价值与“自变量”的命名

周老师:2021年机器人出现范式转变,到现在,赛道吸引您的地方有变化吗?

王潜:没有。一直认为物理世界AI比虚拟世界AI(语言模型、多模态模型)重要得多。要做虚拟世界超级AI,必须跳过具身智能这一关。核心还是Scaling Law问题:现在是对数Scaling Law,需指数级增长的算力、能源、数据才能获得线性增长的智力。做超越人类的ASI,资源投入会大到破坏经济平衡,再下一代可能地球资源都撑不住。

如何从物理世界获得指数资源?工业革命就知道答案:机器制造机器,本身就是指数增长。想明白一件事时我很惊讶——身边所有物体、所有服务,无一不是经过人手劳动制造或完成的。人是阻碍“机器制造机器”指数增长的卡点。若具身智能达到人类水平,移除这个限制后,万事万物都可实现类似摩尔定律的指数增长。芯片几乎无人手参与,所以能有摩尔定律。

期待所有事情都能摩尔定律式增长,才有足够资源延续虚拟世界AI的Scaling Law,才可能做出ASI。这事不一定在地球做,可把机器人发到火星,从捏砖头、建电厂、半导体厂到算力中心,建立完整经济系统,这种资源增长才能支撑ASI。

周老师:像大航海时代,殖民地主要在南美洲,未来可能在火星。

王潜:资源可指数增长时,自然要摆脱地球。

周老师:“自变量”这个名字有何深意?

王潜:最早叫X Project,X在数学上就是自变量(independent variable),寓意我们自己去改变很多事,在这个时代我们是主要变量,变化从我们开始。

周老师:为何选址深圳,没考虑北京、上海或硅谷?

王潜:早期团队以AI为主,但做过机器人知道无法脱离硬件。选址倾向补足短板,全世界没有比深圳更好的地方。黄仁勋说做机器人最好的地方是中国大湾区、深圳。AI上北京或硅谷可能更好,但这不是纯AI的事,需软硬结合。涉及硬件一定离不开产业链。


第四章:技术路线之争——端到端统一模型 vs 分层模型

周老师:自变量从成立第一天就强调端到端统一大模型。Physical Intelligence早期路线相近,但后期Figure AI的Helix、π的0.5/0.6出现分层操作,VLA框架下双系统有内在合理性(如利用现有模型推理优势)。为何仍坚持端到端统一?训练数据要求会不会远高于分层模型?

王潜:内部各种路线都探索,包括分层和完全端到端。核心是权衡。

极致性能上,端到端一定比分层好。关键是若加信息瓶颈,上下层对齐困难,特别是具身需同时处理视觉、语言、动作至少三模态,跨模态对齐时再加瓶颈更难做。

周老师:统一端到端反应速度会更快?

王潜:这正是需要权衡的部分。分层模型的底层可做得非常快,高层不需要那么快;但全放在一起时,整个模型要对齐底层推理速度。这也是大家愿意做“快慢脑”、“大小脑”的核心原因——推理速度的基础设施支持。

我们的看法是:这应与算法分开。训练时可一起训,推理部署未必一起。基础设施侧尤其推理设施可做很多事达到很好速度。我们定位为大模型公司,基础设施团队很强,对标甚至超过很多语言模型公司。花了很大力气做这事,之后就可推极致性能模型,不用管大小和推理速度。

周老师:思路像Transformer架构的Scaling Law。大语言模型常提两个词:Scaling Law和涌现。语料增加到一定程度,语义空间规律自然涌现。具身模型中会出现涌现吗?

王潜:一定相信会有涌现。

周老师:具身智能喂数据有何特定要求?什么数据有助于涌现?

王潜:这是技术侧做大模型最核心的问题。大家对Scaling Law有误解,以为“大力出奇迹”——足够资源、算力、参数量、数据量自然变好。完全不是。

语言模型早期走过这弯路,以为更多数据即可,后来作用没那么大。ChatGPT、GPT3还是在数据上做了大量工作。从算法中心转向数据中心是核心范式转变:以前80%努力在算法,20%在数据;今天80%在数据,20%在算法。

需要完整成体系的流程保证数据质量,不是一言两语能说清。我们数据管线里有几十上百个不同模型在看各种事情,形成较完善的工业化体系,且不停积累。很多人想象做模型是每天改架构、加层、改训练方法,其实大量工作集中在数据,且与模型架构深度耦合。


第五章:数据来源、World Model与仿真数据之争

周老师:字节跳动A+轮后,1X推出World Model,基础逻辑是用大量视频数据预测下一步动作,反推到机械实现目标,号称数据需求量大幅下降。自变量目前用什么类型数据?互联网数据、视频数据、真机还是仿真数据?

王潜:两个值得探讨的点。数据来源很明确:两类,一是互联网数据,二是真机实采数据。

互联网数据其实有限。大家感觉很多,但具身上真有用、适合用的数据没那么多,这点大家差不多,互联网上就那么多数据。

真机数据也有不同类型:机器人操作数据、单纯人视角数据(如人头戴摄像头的自我中心数据)、人身上其他设备(夹爪、手套等),统称真机数据。这两类是主要来源。

关于1X的World Model,我们也做World Model,且认为大家说的VLA和World Model在我们架构下是一回事——统一模型既可作为World Model预测未来,也可作为VLA Model直接生成动作,两件事互相帮助很大。为什么叫“物理世界的基础模型”而非强调VLA或World Model?因为这些只是同一基础模型不同输出用法。关键是模型要真实理解物理世界规律、变化、可能性。

大家一般把具身智能当大模型应用,但我们认为物理世界特性与虚拟世界完全不同,需要捕捉物理规律、物体属性等,才能在物理世界不光控制机器人,还能做World Model等其他应用。

周老师:自变量更看重真实数据?对仿真数据有何看法?

王潜:几乎不用仿真数据。这争论持续七八年甚至近十年。我们这代做机器人的人最早都做仿真,我自己以前做过模拟器。后来为何不做?Locomotion里仿真用得很好,其他领域也用得好,唯独手上操作的仿真数据今天未成主流。英伟达GR00T之前几乎纯用仿真数据,现在也逐渐转向真机。美国市场几乎无仿真数据为主的公司,包括英伟达,有本质技术因素。

手上操作涉及物理世界特性太复杂:大量随机性,碰撞、摩擦、形变等复杂物理过程,仿真几乎不可能精确获取。面临模拟到真实的鸿沟。Locomotion也有这鸿沟但较易解决,因对抗恒定重力场,与地面接触精度要求不高,踩歪10厘米影响不大。但手上操作高度依赖精确操作,需高精度重建物理规律,做仿真非常困难。

有半定量结论:跨越仿真鸿沟需更多仿真数据,仿真数据与真实数据训练效率比不是1:1,目前判断差5到6个数量级。GPU和仿真都不是免费的,此情况下仿真数据成本甚至明显超过真实数据。越是精细物理过程、精细操作、接触丰富的动作,仿真越不好用。

周老师:对基础模型而言,真实数据是巨大挑战,自变量如何解决?

王潜:首先定目标:需要多少数据量?这是核心本质问题。

周老师:市场上有两条路径:先通用再训练专用能力;或先培养专用能力,叠加多个方向培养通用能力。自变量选哪条?

王潜:2021年决定做这方向、23年创立公司时面临的最核心选择。非常坚定认为一定要先做通用。

23年很多投资人讲:正常商业逻辑应先做单一方向、单一场景,做起来后作为根据地,有好现金流和商业闭环,再做第二、第三个,最后变通用模型。这是正常商业逻辑和初创公司发展方式。

但当时说:这事技术上绝对走不通。核心在于GPT3的范式转变——少样本学习,训练新任务边际成本下降。这能力从哪来?来自通用模型。

通用性非常反直觉。以前天经地义的想法:预算有限,资源集中在一个任务上效果一定最好。GPT3后发现另一种做法:以前1000万条数据放一个任务训,现在找1万个不同任务,每任务收1000条数据,仍用1000万条数据,但同时学会1万种不同事情,且每件事一般比集中1000万条的专用模型表现更好。虽单点任务量是1000:1000万,但仍做得更好。这太反直觉,所以可能是等了80年的真正变化——越难想到价值越高。

背后逻辑:同时学1万件不同任务时,学到的不是绑定任务本身的细节,而是1万个任务背后共同结构或知识。语言模型里学到逻辑、概念、概念关系;具身上学到物理规律、基本动作模式、物体基本属性。我们模型上明显看到某些神经元对应某些物理规律或基础动作。

只有通用模型才能学到这些,第一才能以极低成本学会新任务;第二只有通才能力才能做以前完全做不了的事——那些事太复杂,暴力堆资源很快超限,但有通才后边际成本极低,从不能做变能做。

23年讲这判断时大家普遍不认可。有人问凭什么你能做、更大公司不能做、大厂不能做?某种意义上是中国资本市场思想惯性。中国已到做从0到1原始创新的时候,100个相同背景团队可能只有1个能做出,靠技术能力、技术判断力、对未来预测决定。

周老师:很关键。AI革命与前几次工业革命很大区别:中国第一次真正从开始就站在第一梯队,条件、能力、商业空间可行性上都可做原始创新。


第六章:开源生态、商业模式与产业格局

周老师:自变量推出Wallace开源模型,排名很高,有些单项世界领先。但有人说中国开源模型在生态大小、泛化性上有不足。您怎么看?下一步会否把开源作为重要投入领域?

王潜:泛化性问题某种程度上因开放模型削减了部分能力,放出来的与闭源模型不会一样。我们会持续做开源。

团队经历语言模型完整过程,留下深刻印象:开源要持续做、一直做才有好效果,必须让整个社区、全世界这方向的人一起建设。这是我们技术、品牌、整体影响力最重要的方向,肯定持续用很大资源坚持在开源生态上。希望有朝一日形成大规模、开源社区认可的生态。

过往有公司做成功过:语言模型初期大家公认LLAMA最好,但今天LLAMA声音没了,反而是千问。千问刚出来时声量不大,模型当时也没显特别大优势,但做得最好的是持续开源,包括DeepSeek也一样。持续吸纳社区好东西,到今天公认全世界最好开源模型来自中国。所以将来全世界最好开源具身模型可能也会来自中国。

周老师:中国公司分两类:智源、宇树等不断卷本体,BOM成本不断下降;自变量等卷“大脑”。未来人形机器人产业会像制造业一样出现微笑曲线——研发和市场拉满附加值,制造本体附加值低,真正赚钱在大脑。您判断如何?还是不一定成立?

王潜:机器人软硬高度耦合行业,很难单独有纯软平台存在。历史上所有软硬耦合行业皆如此:无人机,大疆一开始做纯软飞控,后来转向软硬一体,今天无人机市场无任何单独纯软平台可能;自动驾驶,特斯拉、国内新势力从第一天同时做软硬件发展不错,纯自动驾驶软件公司今天也逐渐自己做硬件结合。上下游耦合程度确实高,难单独做软件或硬件公司。

团队或初创公司各有基因,有些偏AI,有些偏硬件,发展路径确实不同。

周老师:一定发展阶段软硬协同很重要。类比当年手机行业:诺基亚推自己系统,苹果推iOS,安卓开源适配不同机型。机器人会否出现类似安卓系统?

王潜:难完全排除,但一定比手机难得多。核心在于机器人有跨本体泛化问题,至今未完全解决;且机器人硬件比手机、电脑复杂很多,能动与完全静态差别大,涉及细节非常多。不能完全排除安卓系统可能性,但做起来比当年安卓困难得多。

周老师:核心是现在阶段很难把大脑或基础模型脱离本体单独谈论,但未来方向仍有未知。

王潜:仍有未知,但个人判断软硬一体帮助会非常大。


第七章:投资方生态、商业化节奏与2026展望

周老师:A+轮引入字节,前几轮字节、阿里、美团都成投资方,勾勒商业版图。未来字节在真实数据获取中会否占有很大红利?有无意识构建生态系统?

王潜:这肯定帮助非常大,某种意义上双向奔赴。我们很看重这些战略股东,他们内部也有AI发展项目,很多股东公认是国内乃至全球做AI最好的公司。他们对技术上的判断给我们很高认可,这是双向奔赴。

周老师:比如物流是具身智能应用场景,阿里在模型或算力层面可能对自变量有帮助,有无潜在商业规划形成大生态?

王潜:是的。

周老师:回到通用模型。自变量核心希望做通用模型及软硬一体,最终交付客户解决方案。这就遇到空间时间节点问题:目前很多专用模型看起来不错,具体场景如打螺丝,专用模型训练可能比通用模型快,但不一定效果好。从什么时间点,通用模型性价比会比专用模型显示优势?

王潜:第一点,过去两年很清楚:没有任何打螺丝、物流等场景真正做到正ROI。说句直接的话,到今天为止,没有出现任何一个单点专用模型真做出这件事。

23年讲这判断时很少投资人信,当时说“看一年或两年后走专用模型的有没有真能做出来的”,应该不会有。当时大家没太在意或当成放狠话,现在两年过去,真的没有。

周老师:可得出结论:专用模型可能走不通。Transformer架构出来前,很多人做翻译模型一直走得不太好。

王潜:完全就是这逻辑。今天有些专用模型要么严重过拟合,只针对特别狭窄场景刷到好水平但实用性差;要么套皮——用通用模型在专用上疯狂微调,也是某种过拟合。很难讲这两个是专用模型成功,某种意义上是后训练的成功。

周老师:自变量构建通用模型目标下,通过什么方式采集数据?有无杀手锏?

王潜:这很难用单一技术点讲。以前大家做数据是小作坊、手工式,高度依赖个人、一两个单独点、非标准化口传心授。今天好的数据方式应是工业化、尽可能标准,足够可传承,A和B之间要对齐,有非常好体系化流程。

很多人对数据看法仍停留在表象:遥操作数据和人数据是本质不同?数据工厂采和野生环境采是两个技术路线?野生环境采就好、事先规定动作就不好?这些讨论还在太底层的层次。真正高层次是:这些东西没那么本质。我们既有野生环境采的,也有数据工厂采的,既有遥操作也有人视角数据。更主要的是在过程中构建足够好的系统或流程,把这东西做得足够好。

周老师:具身智能的ChatGPT时刻何时发生?背后技术逻辑是什么?

王潜:时间点在3-5年内。最核心驱动力还是Scaling Law。现在走在当年语言模型GPT2前后时间点,数据量、训练深度与当时语言模型比较像,与今天差很远。之后肯定会有很多新东西出来:从GPT3到ChatGPT出现RLHF,后面出现推理式拓展,具身里也会出现。

但最核心本质还是Scaling Law驱动的基座模型预训练进展,这是第一性的——至少目前阶段推进它到达GPT3甚至ChatGPT水平的最核心驱动力。

周老师:背后可能还是数据。

王潜:数据是其中最重要的点。

周老师:2026年我们统计,过去几年涌入中国人形机器人赛道资金接近500亿人民币。很多人说赛道过热、有泡沫。但美国Figure AI估值超400亿美元,后起之秀估值一直升,中美差距大。您怎么看?对投资者而言,资金是多了还是少了?

王潜:明显是过冷了。这话不是我说,一位国内非常资深投资人说:具身智能应是中国有一级市场以来,这种规模大赛道上泡沫最小的一次。

纵向对比自动驾驶、第一次AI CV应用、移动互联网、新能源等所有过去大赛道,具身智能是估值最低、融资规模最小、重视程度最低的一次。但这件事重要性可能是人类最后一次主动发明创造。美国估值水平和融资规模才相对正常。中国因这两年一级市场萎缩、二级市场状态,不是正常状态。具身智能目前投资金额明显偏少。

周老师:中国跟美国比,真正产业机会在什么地方?

王潜:以前都说中国做硬件好、美国做软件好,理论上似乎不构成强竞争。但现在情况不太对:大家都说美国人做不出硬件,但明显看到Figure、1X、Tesla在美国做确实更耗资源,但美国在用举国体制方式做。

最近Google DeepMind与Boston Dynamics、三星协作推出新一代Atlas,设计有很多新巧思,三巨头合作会否形成强烈生态挤压其他生态?

我看这事不是从这角度,现在谈生态太早。明显看到一件事:美国不是不能做硬件,只是在美国做硬件比较贵。但不计资源、不计成本大量投资下,美国硬件现在也做得很好,甚至可能不比中国差。这是非常标准和成功的制造业回流故事,且制造业回流前提只有足够好的机器人才可能成立。

假设我们有硬件优势非常危险。美国确实没经历过,但并不认为一定做不出来——Tesla在美国有工厂,做得挺不错。但在量产前整个阶段,中国其实没优势。和美国竞争,最终胜负手大概率在模型上。大家在一个赛道上竞争,核心关键点在模型竞争,本体间相互差异可能没有那么大。


第八章:投资人关系、工厂落地与本体形态之争

周老师:回归投资人对自变量的要求,当前融资环境如何?投资人对商业落地有无压力?

王潜:公允说,我们投资人气质比较符合,给的压力是国内公司里相对较少的。有些投资人说“还是要集中在模型上,先把模型做得特别好,商业化或钱的事不用特别担心”。

但从我们角度,应在应该的时候做应该的事。过去两年商业化不是特别成熟时机——有用层面上可能没有任何机器人、具身智能公司做到正ROI。此情况下做商业化,收入质量或商业化质量不够高。今天看到很多例子,和希望的商业化方向有微妙偏差。

什么时候合理开始?基础模型达到一定程度,可以去做后训练,以及可以做其他事情时,再开始商业化是好时间点。这个时间点现在已经到来,刚刚到来。

周老师:您对2026年预期非常乐观。

王潜:个人乐观主要指产业发展进程上,2026年会有非常大变化,但也会是洗牌非常剧烈的一年。

周老师:软硬一体产品未来进工厂更多还是家庭更多?

王潜:两个都重要,技术路线上是分开或平行的路线。偏向通用场景、家庭的,对机器人预训练能力要求更高;进工厂的对后训练要求更高。内部两个团队分别做这两件事,都蛮重要。但长期看,还是要做一家to C的公司。

周老师:短期进工厂相对容易?结构性环境也没那么容易。

王潜:说真的也没那么容易。别说打螺丝,现在唯一可能做得还可以的是搬箱子。但搬箱子也没有正ROI——人工搬箱子或机械臂加AGV的方式,比人形机器人搬得更好。目前的确不存在。

周老师:单纯讲本体,现在有些轮式作业量基本采用轮式,各有各逻辑。长期看路线会收敛吗?收敛到固定形态?像手机从诺基亚各种形态收敛到一块屏幕+摄像头。

王潜:会收敛,但未必收敛到一种。不同环境对本体设计要求不同:野外可能四足或轮足最好,甚至无人机。

周老师:这过程中会否出现问题?最容易收集的是人数据,人可能是运动数据中智能信息量最高的,映射到人形本体效率最高、信息损失最小,导致本体被锁定为人形?

王潜:两只手的设计应该是某种意义上被锁定的设计。

周老师:双足呢?

王潜:双足不一定要从人上手。大量双足数据都是仿真做强化学习,和人没特别大绑定。工厂场景若只在流水线单点工位,不需要走,两个手固定在这就OK。

周老师:一定程度上智能是分类的:移动方面智能甚至硬编码可能解决,更重要的是与世界交互的操作,最重要的是手臂。

王潜:手是五指的?其实也不一定是五指。人很聪明,拿筷子、夹子、两根树枝所能干的事,比今天最好五指灵巧手能干的事都多。本质还是AI问题,非硬件问题。收人数据当然好,但是否要双足不一定。

周老师:双足可能有道理,但双手因大量人数据、真实场景野外场景很多为人设计,能采到的也是五指数据,为何对应本体也不一定是五指?

王潜:人手小拇指使用频率非常低,通常只作辅助;无名指也相对低。人手21或24个自由度,频繁使用的可能也就十几个。人手是非常冗余的东西。从成本、ROI角度,未必要做成五指,三指、四指或删减某些自由度的手,效果可能也挺不错。

周老师:通用模型做完后应用端可能几指都可以?

王潜:训练模型时就可以做这事。收五指灵巧手或人手数据,也没法直接用在特定机器手上,还是要做重定向。拍人手视频还是要重定向。

周老师:若重定向到24或22个自由度,从数学角度似乎非常直接且效率很高。

王潜:效果也没那么好。人手有大有小,不同状态,拍视频做定位都不精确。删减掉一些自由度造成的额外不精确,和直接收到的不精确,未必有那么大区别。

周老师:这也牵扯数据标准化问题。语言相对标准,运动数据常缺少标准,怎么做标准化?自变量在数据标准化上有无想法,希望扮演某种角色?大模型训练依赖大量数据,数据标准化有无自己想法?

王潜:最简单的标准化是数据格式一样、文件名一样,但这太表象。国外一些公司开始解决五指映射问题:手有大有小、有长有短,怎样映射到标准解剖学结构。这思路有意义,我们自己也在做类似工作,能比较本质解决人手是五指、想做非五指执行器时怎么做、数据怎么收的问题。我们肯定愿意干这事。


第九章:2026技术突破预判与就业冲击

周老师:交流过很多创始人中,您可能对2026年非常乐观的一位。

王潜:乐观主要指产业发展进程上,2026年会有非常大变化,但也会是洗牌非常剧烈的一年。

周老师:年初希望年末再邀请您回顾。年初这个时间点,2026年技术层面可能出现哪些突破?

王潜:第一大突破:后训练结合基础模型,真有可能在很多具体垂直落地上有好结果,这是大家都在期待的。

其次,海外像1X、Tesla、Figure用遥操作为主方式进入家庭,也会是很大变化,规模不会像大家想那么小。1X做这事时还挺惊讶,以为大家不太会牺牲隐私和安全性换背后是人控制的机器人,但没想到挺多人接受。

再有,模型能力整体在2026年会有非常大提升:泛化性、任务复杂度、跨本体、超长序列、推理能力等。感觉2025年初和年底模型变化已非常大,2026年会更大。

周老师:政策制定者非常关注具身智能与人类就业问题,担心很多人失业,应减慢具身智能产业应用速度。您认同吗?

王潜:中国减慢,美国不会减慢,非常明显,且美国还会加速。从国家竞争角度,做这种动作非常没必要且有害。

其次,不光具身智能,AI整体到来会从比较根本意义上否定人类在劳动侧的意义。个人看法:最后某种意义上的基本收入甚至基本财产可能是必须的。人类很可能很快进入“劳动是自发需要而非被迫”的状态。这更多是经济学或政策制定层面,但个人观点:过程不可避免,要注重不引发特别大社会动荡,但整体趋势无可阻挡,你不做有的是人会做。

不应放慢,应做的是尽可能减少冲击。基本收入是一种;小层面机器人本身也会出现很多新工作:数据收集、技术支持、围绕机器人的新岗位,相当长一段时间一定是增量市场而非替代市场。

第三,做具身智能有大量纯增量的事——以前本质上没人做。C端市场最典型:希望家里有保姆但讨厌生活环境有陌生人,几乎所有人都有家务需求但保姆普及率很低。家庭劳动占整个GDP比例,印象中大概10%-20%总GDP甚至更高。这是纯增量,不会挤占任何人岗位,除可能几百万保姆,但和增加出来的岗位比肯定少。

微观层面有方法延缓解决冲击问题;更宏观层面,基本收入或新政策肯定要有。

周老师:政策层面宜疏不宜堵,且堵也堵不住。

王潜:核心问题:你不做别人会做,且一旦做出来,比如中国造船产业领先全世界很大程度上依赖高素质有经验技术工人,若机器人做出来这比较优势彻底抹平,美国也可有同样造船工业。国家竞争上非常不利。

周老师:放开想对整个全球制造业重构可能都带来很大冲击,若不重视。

王潜:所以假设美国永远做不了硬件非常危险。制造业回流不是mission impossible,大家要勇于做从0到1的事。以前惯性太强,老喜欢做fast follower。但今天这个时间点,真的需要做一些从0到1的事。

对年轻人,尤其AI冲击这么大的时代,前几天有人提过一个观点:有个阈值,当人能力水平或做出的事超过这阈值时可维持人类作用,但低于时AI作用比人更大。还是要尽可能往前跑一跑。

周老师:您的很多思路对我启发非常多。非常感谢王潜博士来中金机器人播客分享这么深度的思考,希望今年年底再来一期,回顾一下今年中国乃至全球人形机器人赛道发展,是否如您所说。

王潜:太好了,感谢感谢。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

来源:华芯资本
反馈
联系我们
推荐订阅