纪源资本对话银河通用机器人:让具身智能真正实现可落地

关注
随着具身智能的发展,未来整个社会的劳动力系统形态会有怎样的演变?

编者按:本文来自微信公众号 纪源资本(ID:JiyuanCap),作者:投资笔记,创业邦经授权转载。

近期,我们成功举办了纪源资本2025年人民币基金年会,汇聚了多位投资人、知名企业创始人与重要合作伙伴,围绕AI、智能制造、数字医疗、具身智能等前沿领域展开深度对话与分享。

图片

以下为纪源资本管理合伙人徐炳东和银河通用机器人创始人及首席技术官王鹤的对话:

徐炳东:请让我来介绍一下王鹤老师。王老师是银河通用机器人创始人及首席技术官,在斯坦福大学读到博士,师从美国三院院士。同时,他也是北京大学具身智能实验室的创始人与管理者。如我们所知,王老师在专业学识层面拥有很高的站位,但他其实还非常年轻——是位90后。今天我们非常高兴能与他就具身智能话题进行对谈。

图片

王鹤:感谢Eric的介绍。非常有幸参加今天的活动。银河通用成立有两年半,目前是中国未上市的具身智能企业中融资总额最高的机器人公司——这当然离不开纪源资本的支持。今天我也很乐于能与大家探讨具身智能话题。

图片

徐炳东:我们今天的对谈会更多地走技术路线。首先请问王老师,在银河通用成立的两年半时间里,公司在技术层面取得了什么重要的成果?

王鹤:我们在创业之初,就选择了一条极具实用性,也非常有操作弹性的模型及硬件道路。

具身智能,是根植于物理世界的智能。机器人要与世界进行物理层面的交互,产生数据,才能用于持续训练这个模型。而银河通用从创业第一天起,就讲明白了当下具身智能的最大困境:我们并不拥有机器人与物理世界丰富交互而来的数据——对于大语言模型而言,显然没有如此严重的数据匮乏问题。来自互联网的文字、图片、视频,尤其是社交媒体上的海量交互内容,足以对大语言模型进行喂养。

自动驾驶,虽然也属于具身智能,但或许是个例外。成百万、上千万的车主自然会把数据给开出来。然而对于更多具身智能机器人而言,从Day1开始,就会面临数据匮乏的难题:行业中并没有上百万的具身智能机器人用户在产生数据。

图片

而今天,银河通用之所以能走得这么快,正是因为我们意识了具身智能在全球都面临着前面所说的“数据冷启动”尴尬局面。而银河通用的核心技术策略,则是要用物理仿真加合成数据,为具身智能在冷启动期间添加一个热启动的助力。

我们用超过99%的合成数据加上不到1%从真实世界采集的数据,以此方案让具身智能真正实现了可落地。

在去年的世界人工智能大会上,总理亲自体验了银河通用的智慧零售机器人,并指示我们对这一形态产品进行推广。目前,银河通用的人形机器人已经在全国数十个城市的近百家店铺进行着零售服务。

徐炳东:我们知道,或许就在半年前,很多人都还难以在概念上区分具身智能与机器人。银河通用是如何定义具身智能的?

以及,银河通用的核心技术路径会更偏向于当下被谈论很多的“世界模型”吗?这个世界中究竟存不存在所谓的“世界模型”?又或者我们其实更侧重于纯数据驱动的自监督具身模型?

王鹤:我们今天常常提及的几个词:具身智能、机器人、人形机器人,它们到底有什么区别?

“具身智能”这个词,其概念其实正在面临着一定程度的泛化。以我的理解,具身智能是要区别于传统机器人的。去年总理的政府工作报告里,把具身智能定义为未来产业。而这也意味着,今天我们所看到的按规划路线在酒店进行送餐的机器人,或者按固定轨迹进行作业的机械臂,显然都不是具身智能——它们并没有智能的内核,只是一套能够解决某些具体问题的程序。

具身智能的核心是要能根据任务与环境不断做到自适应,自己能够想办法去处理各种新的情况,其背后一定是数据驱动的。

而只要有了智能的内核,它其实也不一定被制造成人形机器人。比如我们银河通用四足狗,经过大模型的部署,可以实现陪妈妈、孩子逛商场。它也是我们在2025年儿童节向教育、育儿市场送出的一个礼物。但当然,人形产品始终是具身智能领域中最值得关注的类别,也被视为能够成为对我们生活影响最大的单一应用。因为它能最轻易地融入人类生活环境,去做各种人能做到的事。

具身智能是人形机器人的灵魂。那么我们该如何理解并激活这个灵魂?其实背后的机制与我们这些具备天然智能的人是相通的。

3ee3f7f8156890e1e93930ae0b8fd117.png

在座的各位,本质上来讲,我们都是一个具身端到端的大模型。如果把我们大脑里的每一个突触当作一个开关,对应到大模型里的一个参数,那么我们都是拥有百万亿参数的个体,比今天最大的大模型还要大。对于任何一项指令,无论是写作业、跑步,还是打扫卫生,我们并不需要切换不同的大脑来处理每一件事。我们是用一个大模型来应对所有的需求与情境。

而当我们通过行动去处理一件事,我们会有意识地去调动自己的每一条肌肉纤维,告诉自己此刻的手脚应该做出怎样的动作,从而把预期中的行动付诸实践。另一方面,我们也会对自己行动的效果有所预期——我这样做了以后,我所面对的、接触到的世界会怎样?后者,属于世界模型的范畴。而前者,面对指令,让身体反应出该怎样行动,则是Inverse Model。

这两种模型同时存在,也都很重要。对于具身智能而言,仅有世界模型是不够的。当我们拿起一个物品扔出去,我们的大脑自然无法厘米级地预判这个物品会落在哪里,会在地面弹几下。但即便如此,我们往往还是可以自如应对这一过程。

世界模型,是一种学习的手段,但并不是智能的全部。它甚至不是具身智能里第一性原理需要的——Inverse Model更加符合第一性原理。

徐炳东:您的分享,我非常认同。那么再进一步探讨,如果我们把具身分成运动控制、任务规划、通用行为,再到真实世界这几个阶段,您认为银河通用的产品正处于哪个阶段?为了达到下一阶段,我们又需要攻克哪些问题?

王鹤:具身智能的任何落地场景,都需要从运动控制、任务规划、通用行为和真实世界自主性上达成一个闭环。对于通用行为,我们确实还没有做到。当然,众所周知,当今全世界也没有谁能宣称自己已经做到通用行为了。

我可以和大家讲一讲银河通用目前能够掌控的一些场景。比如,在人流密集区,像是北京的王府井,上海的外滩,杭州西湖,又或者成都的春熙路,面对大量的游客,以及各式各样的饮品、文创雪糕等等,我们的机器人可以完成从取货到交付的过程。这其间有视觉引导,同时还要能听得懂人类的语言。在行动过程中,要能够自如转身,根据不同高度的货架,还要随时蹲下或者站起。对于悬挂着的商品,它还要懂得从旁边轻轻摘下来。对于瓶装商品,要懂得进行伸手抓取。而在实现这一整套细致入微的需求中,我们在技术上是自主的。

银河通用的零售太空舱已经在全国落地将近百个,这让我们感到非常骄傲。不久前,埃隆马斯克团队研发出的擎天柱机器人,刚刚实现了在纽约时代广场端起一个盘子并进行递货。机器人整体上基本一动不动,随后从托盘上拿一个糖袋递给来的观众。即便如此简单的行为,也只提供了很短时间的体验。而银河通用的太空舱则是可以7*24小时体验的。

我知道,大家对于人形机器人的期待不只是在零售仓中卖货。从现阶段到未来,我们也在思考并规划如何做到从单一技能到技能集合的跨越,再到能够自如地实现更加广泛的各种技能。目前,导航、抓取、放置,这个技能合集形成了我们的第一代基模。在这个基模之上,我们还希望人形机器人能够很好地处理各种桌面物体、货架物体,以及深框中的物体。目前,我们已经在全国落地了几十家完全由银河通用机器人运营的智慧药仓,让机器人发挥着自己快速准确抓药的能力。

f55cc8dd6b7abf0b2c349ebf2610c440.png

目前,我们的机器人已经不只局限于以二指进行夹抓和单放,前不久我们发布了灵巧手神经动力学模型DexNDM,让通用灵巧手首次能在任意姿态、任意轴向下稳定旋转复杂物体,机器人可以使用其灵巧的五指握住小改锥,从而把螺丝一点点拧进去。我们,随着具身智能在这一层面上的技能迭代,又将打开几千亿、几万亿装配、操作市场。

我们会一步一步拓展自身的能力边界。不过对于具身智能而言,或许并不会呈现一个“ChatGPT Moment”。并不会有那么一天,在这一天之前,你的人形机器人还什么都不会干,在这一天之后,伴随某项关键技术的突破,它就什么都会干了。我个人认为,这样的变化不会是在某一天突然发生的。它还是需要一个漫长的过程,让数据不断积累,让模型实现场景的闭环部署,随后迎来硬件的交替迭代升级,最终构成一个可以服务于某个行业的产品,从而再向相似的任务中进行扩散。所以我并不认为会出现大批体力劳动者在某一年忽然集体失业的情况,因为具身智能的发展过程是渐进的、缓慢的。当然,从另一个角度来讲,或许再经过耐心发展的十几年,我们就真的可以实现从年产机器人上百台,到为全国提供一亿劳动力的宏大跨越。

徐炳东:刚才您提到,具身智能行业可能不会出现一个“ChatGPT Moment”,不会是在某一天忽然呈现出一个质的飞跃。而我们也看到,美国的一些具身智能公司似乎已经在把发展方向引向C端市场,想让具身智能机器人尽快走入普通家庭——这似乎更像是人们一直以来所畅想的未来图景。对此,您怎么看?以及,您如何看待中国在具身智能赛道上的自身优势?

王鹤:美国的一些公司在这件事情上确实是比较激进的——当然,它们选择的路径某种程度上也是在匹配自身的估值。然而对于机器人这种产品,凡是有过使用体验的人都会明白,把它带到自己的家中绝非一件简单的事。即使是很多人都体验过的机器人,在概念上是相当简单的,只要完成了对全家的建图,就可以自己走来走去地工作了。但在实际体验之中,即便是今天公认比较好用的扫地机器人,也会在实际运行之中显现出很多具体问题。

把机器人带到自己家中,真正把它放到日常生活的场景里,我们当然是真的希望它可以自己进行家务工作。我们很难接受它做得不好,很难接受它不仅没有帮忙,反而还在添乱,很难接受自己还要为机器人犯的错误来善后。因此,在当下相关技术还不够完善的情况下,我也很难认同让机器人立即进家是一条很好的发展路径。

我认为,中国的人形机器人企业一定要务实,要能够先让自己的产品真正做起一些事情来,从而,让这样一个全新的生产力逐渐通过数据驱动的方式承载更大工作量,并接手更多种类的工作。

我们选择从零售入手,一方面是因为这个行业的劳动力需求大。在海外有很多上货、理货的场景都是非常需要人的。在国内,围绕着小区15分钟半径内的前置仓,也有着极大劳动力部署的需求。另一方面,也是因为零售业的容错率相对还是比较高的——即便真的意外掉落了商品,也不会造成太大的麻烦。在模型达到99%准确率的情况下,完全可以商用于零售。但如果换成自动驾驶这样的行业,99%的准确率就无法商用了。因为一旦出事,往往就是大事。

图片

把零售业的路走顺之后,可以进入工业领域,让产品接触到节奏更快、规模更大的工作。随后,可以考虑打入康养行业。最终,才是进入千千万万的家庭——这是一个我认为可实施的路径。每次向新的阶段进行探索之前,都需要先把现阶段的搭建完成,把每一步的基础打牢。

中国有具身智能赛道上的优势,首先是硬件供应链齐全。对于一个方兴未艾的行业,整个产业链上还有很多需要迭代的部分。而把一套尚未成熟的硬件迭代到可大规模量产及商用,恰恰是中国所擅长的。

第二,在数据积累方面,中国显然也有强大优势。特别是在有了如银河通用所做的这样,不依赖于实体机器人的数据合成手段以后,我们在数据方面的优势会进一步扩大。

第三,中国所拥有的巨大市场能够为具身智能构建一个良好的生态,使其在商业上更容易形成闭环。这就使得具身智能在中国不止是创投领域的热门话题,更能够真的推出产品在市场上售卖。

我认为,只要中国的企业们能扎扎实实走好眼下发展的道路,未来在全球具身智能赛道的竞争中,是有着让人乐观的前景的。

徐炳东:最后,我们来谈一下未来具身智能与社会的融合问题。不久前,埃隆马斯克与黄仁勋有过一次对谈。马斯克表示:“在人工智能高度发达的未来,人不需要工作了,钱也就变得没用了。”您认为,随着具身智能的发展,未来整个社会的劳动力系统形态会有怎样的演变?

王鹤:首先,从整体人类社会的角度来看,一旦劳动成为了一件非必需的事,整个人类文明势必会迎来一次相当大的变迁,每一个人的生活也会随之发生质的变化。

然而,从更加切近的视角来看,我认为目前我们在具身智能方面所做的事情,在一个中长期的时间尺度上来说,其实是对中国制造的一种延续。

来看对中国大学生的数量预测数据,可以看到在接近2040年时,中国的大学毕业生数量会达到最高峰。但是短短7年之后,数字就会减半。可以预计,在2040年之后,整个社会将面临劳动力短缺。而我们现在的目标,则是在这种局面出现的时候,能够及时为人才市场补足一亿劳动力,从而逆转其对中国制造带来的冲击。

再往后20年,或许真的不再需要任何劳动力了?而那样的情况,又会对我们的经济产生怎样的影响?这些更遥远的问题,可以交给时间来回答。至少在眼下的10年、20年里,我相信具身智能所扮演的角色不会是去抢夺人们工作的。我也相信,在这个进程中,我们的社会也将有足够的弹性去应对劳动力结构变化带来的种种挑战。

徐炳东:感谢王老师的分享。感谢能有顶尖的科学家加入我们的阵营,让我们有能力把目光投向未来,对未来进行投资。衷心希望看到银河通用为中国具身智能行业塑造的蓬勃图景。也满怀期待看到您与其他顶尖科学家探索到再造这个世界的全新规律。谢谢!

王鹤:谢谢!

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅