几十亿年前，生物就造出了第一个"世界模型"

峰瑞资本·2026-04-19

行为，直接从神经结构中涌现了出来。

来源丨峰瑞资本

作者丨沈炯

一只果蝇的大脑，被"上传"了。

2026年3月，旧金山初创公司Eon把一只成年果蝇的完整大脑搬进了虚拟世界—— 14 万个神经元、超 5000 万个突触连接，一比一复刻到 MuJoCo 物理引擎中。没有强化学习，没有行为编程，这只数字果蝇就自己走了起来。它会转向，会进食，会梳理自己的触角，和真实果蝇的行为相似度高达 95%。

没有人"教"它做这些。行为，直接从神经结构中涌现了出来。

数字果蝇。图片来源：Eon <We've Uploaded a Fruit Fly>

这个实验比"数字生命"更戳到根子上的问题是：具身智能今天是最热的赛道之一，人形机器人融资屡创新高，物理 AI 是黄仁勋和每一个投资人嘴里的高频词。但行业撞上了一堵墙：大语言模型不懂物理世界。

LLM 能讨论重力，但没感受过重力。它能描述"杯子从桌上掉下来会碎"，但它从未感受过重力，也无法预测一个从未见过的物体掉落后会发生什么。图灵奖得主 Yann LeCun 在 2025 年底离开工作了 12 年的 Meta，创办 AMI Labs 融资超 10 亿美元，赌的就是一件事：LLM 是死胡同，必须转向世界模型。

LeCun 说得直白：我们至今没有一个像家猫一样灵活的家用机器人，也没有真正的自动驾驶，原因就在这里。当前的 VLA（视觉-语言-动作）模型还在模仿训练数据里的模式，对物理世界既没有因果理解，也做不了长期规划。

那世界模型到底怎么建？更多的数据？3D建模？物理仿真？

正如人工智能发展是受人大脑的神经网络启发，我们尝试从生物那里寻找答案：人体皮肤下那些深埋了几十亿年的触觉感受器。从触觉系统出发，串起傅里叶变换、神经信号传导和世界模型，给出一套完整框架。这种从交叉学科视角看问题的方法，也是峰瑞资本一贯坚持的。

生物用几十亿年演化出的感知系统，本身就是一套跑得通的"世界模型"。把它的结构看懂，或许能帮助我们看清世界模型当下的卡点，和后续的进化方向。生物、医疗这类看似和 AI 无关的学科，或许正是我们理解世界模型的参照系。

在这篇报告我们探讨如下话题：

生物为什么把感知系统做得这么复杂？

2. 为什么大语言模型能通过律师资格考试，却控制不了机器人稳稳端一杯水？

3. AI 这么聪明了，它会有意识吗？

4. 从蛋白质折叠到果蝇行为，"结构即功能"这条原理在宏观世界还成立吗？

5. 生物亿年来的进化对构建"世界模型"有什么启示？

深埋皮肤之下的精密仪器

在人的五感里，触觉可能是最不起眼的那个。视觉有 4K 屏幕，听觉有 Hi-Fi 音响，但你上一次认真想过"触觉"是在什么时候？

触觉像空气，它永远存在，尽管你鲜少关注。事实上，触觉是生物最古老的感知系统，胎儿在母体里最先发育出来的就是触觉，且它有一套非常复杂的“协作系统”：在你的皮肤下面，埋着一整套精密的传感器阵列。仅机械触觉这一类，就有四种核心感受器，各司其职。

默克尔盘分辨率高，负责精细触觉，盲人读盲文靠的就是它。

迈斯纳小体感受低频振动，你拿杯子时判断该用多大力、会不会滑落，是它在工作。

帕西尼小体感受高频振动，动物感知远处大地的震动、判断危险是否逼近，全靠这个深埋皮肤深层的感受器。

鲁菲尼小体感受皮肤的牵引和张力，帮你感知手部姿态。

利用基因工具和抗体染色技术，Ginty 实验室拍下了触觉神经元的荧光肖像。图片来源：Quanta magazine<Touch, Our Most Complex Sense, Is a Landscape of Cellular Sensors>

这四种是主角，但皮肤下还有一整套配角：感受冷的、热的、痛的、痒的，其中冷觉感受器同时对薄荷醇敏感，所以你吃薄荷会觉得"凉"。痛觉分快痛和慢痛，手碰到烫的东西，你先感到一阵尖锐的刺痛（Aδ 纤维，每秒 30 米），然后才是一波灼烧感（C 纤维，每秒 0.5-2 米）。前者让你缩手，后者让你喊疼。

还有一类值得单独说。C 触觉纤维缠在毛囊周围，它感受的不是压力、不是温度，而是情感。别人轻轻抚摸你，或你抚摸婴儿时感受到的舒适和亲密，就是 C 触觉纤维在工作。它直通大脑的情绪中心（岛叶），和默克尔盘那类"工具型"感受器走的是另一条神经通路。

因此，触觉不止是防御系统，还能左右情绪。20 世纪 50 年代，美国心理学家哈里·哈洛（Harry Harlow）进行了一项著名的心理学实验。他将刚出生不久的婴猴与生母分开，并为它们准备了两个“代母”

1. “铁丝妈妈”：用冰冷生硬的铁丝网做成，但胸前挂着奶瓶，可以提供食物。

2. “布料妈妈”：用柔软温暖的绒布包裹，但没有奶瓶，不提供食物。

当时学界的传统观点是“婴儿对母亲的依恋仅仅是因为母亲能满足其生理饥饿”，然而事实却证明，小猴子绝大部分时间都紧紧依偎在“布料妈妈”身上，只有在极度饥饿时，才会短暂地跑到“铁丝妈妈”那里喝一口奶。

这个实验证明了接触性安慰和情感依托的重要性甚至不亚于食物，而长期触觉剥夺会导致严重的身心发育障碍。目前也有越来越多的研究把 ASD（自闭症）和 ADHD（注意缺陷多动障碍）的成因指向触觉系统的异常。

触觉，是被严重低估的基础智能之源。

而且这套系统并不是固定死的，它是高度可塑的。在你的大脑皮层里，有一个被称为"皮质小人"的映射——身体的每个部位都对应着皮层上的一块区域。

体感皮质小人（Somatosensory Homunculus）。图片来源：Adobe Stock

但这个小人的比例和你的身体完全不同：手、嘴唇、舌头占了巨大的面积，而躯干和下肢只有一小片。因为皮层面积不取决于身体部位的物理大小，而取决于它的功能强度和灵敏度。

更关键的是，这张地图会变。盲人长期用指尖读盲文，他大脑中对应手指的皮层区域会物理性地扩大。小提琴家的左手手指皮层也是如此。反过来，如果一个肢体被截掉了，对应的皮层区域不会闲置——相邻区域会"侵入"进去，这正是截肢患者出现幻肢痛的重要原因。

你的耳蜗是一台傅里叶分析器

了解了触觉系统的丰富之后，一个问题会自然冒出来：为什么需要这么多种感受器？

触觉和痛觉分开还好理解，一个管日常，一个管预警。但冷和热为什么要分？触碰和抚摸为什么要分？最费解的是：低频振动和高频振动为什么要分？一个传感器全频段采集不行吗？

要回答这个问题，我们先绕到听觉。因为听觉本质上也是一种特化了的"触觉"——耳朵里的感受器接收的是空气波的压力信号，也是机械力。

如果按工程思维设计声音采集器，最简单的方案就是一张振膜，像电容麦克风那样，所有频率一股脑儿全收。

但生物并没有这么做。

人的耳蜗是一个螺旋结构。声波进去之后，不同频率的振动会在耳蜗的不同位置共振：高频在底部，低频在顶部。不同位置的毛细胞把各自频段的振动转成神经信号，分别传进大脑。

外周听觉系统的结构

图片来源：Ento Key<Anatomy and Physiology of the Auditory System>

因此我们或许可以这么说：耳蜗是一台天然的、被动的傅里叶分析器。它把混在一起的复杂声波，拆成一组组简单的频率分量。

什么是傅里叶变换？想象你在一个嘈杂的派对，同时听到人声、音乐、杯子碰撞声。傅里叶变换做的事就是把这团声音拆开，告诉你里面有哪些频率、各占多大比重。再复杂的信号，都可以拆解成一组简单波形的叠加。

这些“简单波形”也叫基函数，傅里叶基函数就是正弦/余弦波，傅里叶变换就是基函数在空间中的投影变换。

这个数学工具撑起了整个现代通信。手机信号、Wi-Fi、4G/5G，全靠傅里叶变换来分配频段、压缩数据、过滤噪声。没有傅里叶变换，就没有数字通信。而生物在几亿年前已经"发明"了同样的原理。

现在回到触觉。如果我们把每一种触觉感受器理解为一个"基函数"——默克尔盘对应静态压力分量，迈斯纳对应低频振动，帕西尼对应高频振动，鲁菲尼对应张力。触觉系统做的事情就和傅里叶变换一样：把复杂的物理世界信号，分解到一组基函数上，提取各个分量的特征。

这个类比也可以这样推广：感知 = 在多层神经元基函数上，对世界做投影展开。

而生物之所以这样做，是因为生物的大脑里从来没有一张 4K 世界模型图。生物感知的目的是反过来推演生成因子：从混沌的感官输入里，提取对生存和行动最有用的低维特征。

这是一种简约性设计：鲁棒性（结实）、强烈冗余、⾼度可塑性、低计算量。去掉噪声和与生存无关的信息，只保留关键的生成因子。

世界是"低维生成，高维投影"的，基础智能的核心，就是在高维数据里找低维分布。生物的感知系统天生就在做这件事。

100 万根纤维并行传输

不压缩，不编码

感受器把世界拆成低维分量之后，下一步是传输。生物的做法，和通信工程教给我们的一切都不一样。现代通信追求的是把信号压缩编码，在有限带宽里塞最多信息。但生物不这么干。

以视觉为例（视神经比触觉神经粗，解剖上更好观察）。人类每只眼睛的视神经里有超过 100 万根神经纤维。视网膜上有约 1.2 亿个感光细胞（视杆细胞加视锥细胞），大约每 100 个感光细胞对应一根视神经纤维。这些纤维集合成一条直径约 2 毫米、长约 6 厘米的束，从眼球后部直接穿入颅内，接到大脑视觉中枢。

100 万根纤维同时传输，每根带着自己感受野的信号。不压缩，不编码，不混合。原汁原味，并行直送。

而且这些信号的传输方式不是模拟的，是数字的。神经纤维上跑的"动作电位"本质上是 0 和 1 的脉冲：放电或不放电，没有中间态。这保证了长距离传输的准确性。

信号到了大脑，也不是一锅炖。

视觉信号先到丘脑的外侧膝状体（LGN）。丘脑切片清晰地显示出一层一层的结构：不同类型的视网膜神经细胞送进来的信号，被分门别类存进不同层。不是打乱重编码，是结构化分层保留。

猕猴外侧膝状体在脑内位置以及切片结构。

图片来源：中国科学院上海分院《从视网膜到视皮层 —— 视觉系统知多少》

再往上，信号进入初级视觉皮层 V1。V1 里的神经元对不同空间频率的视觉信号有选择性响应，这种分层处理机制和傅里叶分析的多级滤波很像。V1 神经元的感受野近似 Gabor 函数，能提取图像里的边缘、纹理和局部结构。

视觉通路的平行处理模型。

图片来源：中国科学院上海分院《从视网膜到视皮层 —— 视觉系统知多少》

了解深度学习的人看到这些名词会眼熟：CNN 图像识别里最基础的 Gabor 滤波器，当年就是借鉴了人的视觉系统。因此不是生物在学 AI，是 AI 在学生物。

视觉、听觉、触觉都有类似的傅里叶分析器结构：低维采集 → 数字化并行传输 → 结构化分层传进丘脑 → 皮层对齐整合分析。

丘脑远不是一个简单的中继站。最新研究发现，丘脑是跨模态信息整合的中心：它的高阶核团（板内核、内侧核）是超模态的、与认知状态相关的"门控"中心，整合来自皮层、基底节、边缘系统的广泛输入，评估信息的"全局相关性"。

你摸一个物体时，会同时用视觉确认它的质地，触觉在帮视觉校准预期。这种跨模态整合，就是在丘脑里完成的。

生物的世界模型

一定是"具身"的

把生物感知的整套架构搞清楚之后：低维采集、数字化并行传输、丘脑结构化整合。一个更大的问题浮上来：生物的"世界模型"长什么样？

三个字：具身的。

什么叫具身？世界模型不是一个独立于身体之外的抽象计算，它直接长在身体里。

第一，身体即空间。你的身体给了你一个天然坐标原点，你就是世界的中心。你的手臂长度是丈量近处空间的尺子，你的步幅是丈量远处空间的尺子。触觉、前庭觉、本体觉三者统合，把身体和外部世界融成了一个整体。你闭着眼也知道自己的手在哪，走路不用看脚下，这不是算出来的，是身体自带的空间模型。

第二，生物不需要标注，靠自监督就能学。训练一个大语言模型要海量标注数据加人类反馈，但一个婴儿学走路，没人告诉他“这步对那步错”。他摔倒、爬起来，大脑不断比较“预测会发生什么”和“实际发生了什么”，自动调整。

生物为什么能做到？因为低维数据自带约束力。感知输入是低维的、结构化的，大脑就能分清预测和观察之间的偏差，形成闭环反馈。这也是为什么今天 AI 里真正跑通端到端学习的，都是低维输入场景：自动驾驶本质是一维线性控制，蛋白质是序列，语言也是序列。

第三，基础智能不是“算”出来的，是“长”出来的。感知和运动这些能力，是生物在发育过程中通过身体发育和神经和大脑的可塑性一步步构建出来的，这种长出来的神经结构就构成了生物的基础智能，也就是生物体具身的世界模型。所以这种认知的世界模型一旦长成就不会丢失，就像学会了骑自行车即便十多年不骑也不会忘记，这就是我们通常说的肌肉记忆。

一只数字果蝇的启示

既然智能是“长”出来的，自然就会联想到分子生物学里的原理：结构即功能。

这个概念在分子生物学里早就是常识：一个蛋白质的三维结构决定了它的功能。AlphaFold 之所以震动学术界，就是因为它能从氨基酸序列预测蛋白质结构，进而推断功能。

这个原理在宏观尺度上同样成立。最有力的证据就是开头那只数字果蝇。

2026 年 3 月，Eon 团队把果蝇大脑的连接组（约 12.5 万到 14 万个神经元、超过 5000 万个突触）原样复刻进 MuJoCo 物理引擎。没写任何行为规则，没做强化学习训练，只是忠实还原神经元之间的连接结构。调整权重参数，接上物理引擎，果蝇就"活"了。

它会走路、转向、梳理身体、进食、颤翅膀，和真实果蝇的行为相似度高达 95%。

这个实验的意义在于：行为直接从神经结构里涌现出来。不需要编程，不需要训练，结构本身编码了功能。

理解了这一点，就能解释 AI 领域著名的莫拉维克悖论（Moravec's Paradox）：为什么高级认知（逻辑推理、下棋）对 AI 来说相对容易，而基础能力（走路、抓取、感知环境）却极其困难？

原因就在结构复杂度的差异。逻辑推理虽然看起来"高级"，但依赖的结构相对简单、可形式化——符号操作、规则推演。走路、抓握这些"简单"能力，背后是几十亿年进化出的复杂神经-肌肉-骨骼结构。你觉得走路简单，是因为你的身体替你做了所有计算。

所以大语言模型可以通过律师资格考试，却控制不了一个机器人稳稳端一杯水。

前者是结构简单的高级认知，后者是结构复杂的基础智能。

AI 会有意识吗？

明白了“结构即功能”，我们就可以试着回答一个略带哲学意味的问题：现在的 AI 这么聪明，它会不会有意识？

5 年前，峰瑞内部讨论的问题还是"AI 能不能达到人脑智能"。今天这个问题基本不用讨论了，很多维度上 AI 已经超过了人类。但"有意识"和"很聪明"是两回事。

而这两者中间的 gap 或许就是"时间感"。

意识的一个基础前提是你必须有连续的主观体验。而连续的主观体验首先需要时间感：你得能感受到"之前"和"之后"，感受到事情在流动。没有时间感，就没有连续体验，也就谈不上意识。

但时间很特殊。学过物理的人知道，在理论物理中，时间不是一个算符，只是一个参数。时间无法被直接感知，你没有一个"时间感受器"，不像你有眼睛这种光感受器、耳蜗这种声波感受器。

那生物的时间感从哪来？

它是从"触觉主导的神经动力系统"结构里涌现出来的。通过 NMDA 分子受体、突触 STDP、时间细胞之间复杂的动力学交互，时间感作为一种功能从结构里长出来。和数字果蝇的行为涌现是同一个逻辑。

回头看大语言模型。LLM 是没有时间感的，它没有内在的时间流，只有 token 序列，是离散的，不是连续的。它处理的"时间"和"因果"来自输入文本的结构，不是系统本身的动力学。

这解释了一个很多人直觉上感到但说不清楚的现象：LLM 的逻辑推理能力很强，但因果理解能力很弱。逻辑推理不需要时间箭头，"如果 A 则 B"是一个静态形式关系，可以从语言结构涌现。但因果关系本质上是时间性的，"A 导致 B"意味着 A 在前、B 在后，中间有一个时间方向。没有内在时间流的系统，无法真正理解因果。

至少以目前 AI 的架构，它不可能涌现出意识。

这不是说 AI 不够聪明。而是说，意识可能需要另一种底层结构：有内在时间动力学的、具身的、从发育里涌现的结构。而这恰恰是生物用了几十亿年进化出来的东西。