DeepSeek最新论文解读:mHC如何用更少的钱训练出更强的模型?

关注
大模型中,信息究竟是如何在超深网络里稳定流动的?

编者按:本文来自微信公众号 纪源资本(ID:JiyuanCap),作者:投资笔记,创业邦经授权转载。

01

DeepSeek发布了关于mHC(Manifold-Constrained Hyper-Connections) 的论文,扔出了一个重磅炸弹。这篇论文关注的并不是模型参数规模、数据量或算力,而是一个更基础、更底层的问题:大模型中,信息究竟是如何在超深网络里稳定流动的?

image.png

要理解mHC的价值,必须回到残差连接(Residual Connection)这个算法基石。这最早由何恺明团队在2015年提出(ResNet),是人工智能发展的一个里程碑。其核心形式简单来说就是:每一层的输出 = 这一层学到的东西 + 上一层的输入,用公式表示为:x_{l+1} = x_l + F(x_l)。

这个创新为什么重要?因为在这个算法之前,由于梯度消失原理,AI的模型深度训不高。而残差连接的出现,解决了当时深度学习中这一根本性难题。

在残差连接之前,神经网络的深度长期被限制在20~30层以内。当信号在几十、上百层网络中反复相乘传递时,梯度会指数级衰减,最终弱到模型几乎无法学习有效特征,这就是梯度消失。受限于此,经典模型如AlexNet,也只能有 8 层深度。

残差连接的关键突破,在于为信号引入了一条“快车道”。无论中间层学到了什么,原始输入都可以不经变形地直接传递到更深层,形成一种恒等映射(Identity Mapping)。这条路径的权重固定为 1:1,既不放大,也不衰减,从而在数学上保证了信号和梯度的稳定传递。

也正是这一设计,使得可训练网络的深度从几十层跃升到数百层、上千层,直接奠定了现代深度学习的结构基础。此后十年,从CNN到Transformer,从 GPT、LLaMA到Gemini,几乎所有主流大模型都沿用了这一思想,并将其视为默认配置。

31efcadcb73f8d4c15f529cb53749793.jpg

但是,残差连接存在一个巨大的问题:它始终是一条固定权重、单一路径的“信息直通车”,一次能够传递的信息太少,难以支撑大模型对复杂、多源信息的高效建模需求。于是,研究者们开始思考:如果信息传递的“直通车”不止一条,会发生什么?

这便是超连接(Hyper-Connections)的起点。

02 mHC到底是什么?

在mHC之前,2024年9月,Seed团队发表了相关的第一篇论文,提出了超连接(Hyper-Connections) 这个概念。

如果把大模型里信息的传递过程想象成接力跑,传统的残差结构只有一名接力手:上一层把接力棒交给下一层,路线固定,节奏也基本不变。而超连接做了两件事情。

第一件事,超连接让这场单人接力赛变成“多人接力同时跑”。同一层产生的信息,不再只能沿着一条路径往前传,而是被分流到多条并行通道中,每一条都可以携带不同形态、不同阶段的表示继续向前。

第二件事,信息交棒的方式有变化。这些通道并不是平均分工、同时出力,而是由模型在训练过程中自己学会分配权重:有的信号被反复沿用,有的只在特定阶段发挥作用,还有的会被逐渐淡出。哪些该多用,哪些该少用,并没有人为设定,而是由数据和目标函数共同决定。

由此,超连接让模型在层与层之间拥有更大的自由度,相当于赋予模型一种“动态调度信息”的能力,而不是机械地原样传递。但问题也正是在这里出现的:当模型被赋予过高的自由度,而缺乏足够的约束时,系统本身就可能变得不稳定。

a1404e92cb87c0642ca8531758de569b.png

这张图直观暴露了超连接在大模型训练中的致命缺陷:不稳定是结构性的,而非偶发现象。

左图显示的是训练过程中HC相对于mHC的loss偏差。可以看到,HC在训练早期看似正常,但随着步数增加,loss不但没有持续收敛,反而逐渐偏离并长期处于高波动状态。这说明模型内部的信息流已经失衡,训练过程难以被拉回正轨。

右图进一步印证了这一点。HC的梯度大小整体更高、波动更频繁,并多次出现明显尖峰,反映出模型在不同阶段对信息的反应时强时弱:要么信号爆炸,要么信号微弱。信息在层层传递中逐渐失去原本的比例关系,牺牲了信息的保真度和训练的稳定性。

而mHC的出现,解决了超连接训练不稳定的问题。

8049032778aaa2bd023b879df5304619.png

mHC的全称是“流形约束超连接”,它并没有否定超连接的思路,而是给超连接加上了一道关键的安全护栏,也就是把H这个矩阵约束在“双随机矩阵”上。

所谓“双随机矩阵”,可以把它理解成一种“只做分配、不做放大”的规则表。

在这种矩阵里,每一个数都是非负的,而且每一行、每一列的总量都被严格限制为同一个固定值。它描述的不是把某个信号放大多少倍,而是把已有的信息,按比例分给不同位置。

比如一个2×2的双随机矩阵,本质上就是在两种成分之间来回分配权重:你给谁多一点,另一边就必然少一点,总量始终守恒。

正因为如此,当这样的矩阵参与计算时,它的作用更像是在重新调配资源,而不是制造新的能量。把它作用在一个向量上,得到的每一项,都是原始信号的某种组合平均值,而不会凭空变大或变小。

这带来一个非常关键的结果:只要输入本身是稳定的,输出就天然被限制在一个安全范围内。换句话说,系统里不会出现越算越大的失控信号,这从数学结构上切断了信号爆炸的可能性。

fa1e167d501e36b69745b2e1dacce847.png

同样重要的是,这种约束不仅防止了信号爆炸,也避免了信号微弱或消失。在mHC中,由于每一行、每一列的权重之和都被固定为1,模型不可能把所有权重同时压低。这意味着:每一层传递出去的信息,必须被完整地分摊到下一层的各个通道中,而不是被整体削弱。

换句话说,双随机约束让信息在网络中的流动始终处在一个守恒区间内:既不会被无限放大,也不会被慢慢耗散。

mHC的这种约束使得大模型训练的稳定性和性能大大增强。唯一的代价是增加了6.7%的训练时间,主要是因为扩展了残差流宽度。但这一额外成本与性能提升相比微不足道。要知道,训练大模型极其昂贵,每一秒的算力消耗都触目惊心。而mHC带来的稳定性可以帮企业节省数千万的算力成本,以及辛苦调试的时间,整体收益远超代价。

03

mHC仍然延续了DeepSeek的整体思路,但在实际应用中展现出了更多潜力。

首先,它在稳定性与效率之间找到了新的平衡,同时显著降低了成本。通过减少训练失败的重试次数,mHC大幅缩短了产品迭代周期,能够降低约30%的算力成本。这意味着在未来更大DAU的AI产品爆发时,团队不仅能够节省资源,还能以更快的速度进行迭代和优化,为产品快速响应市场提供了可靠基石。

15f08429167fa52b84d67b34b29698fa.jpg

其次,mHC为大模型向更大规模的发展提供了支撑。目前大模型已经迈向千亿甚至万亿参数,而稳定性是扩展过程中最大的瓶颈。mHC通过“约束+高效”的框架,使更复杂的模型架构得以顺利训练,显著降低了大规模训练的不确定性和算力浪费,同时让AI能力进一步提升。

在技术研发思路上,它证明了“有约束的自由”比“完全自由”更有价值——给模型加合理的数学约束,能让AI发展更科学、可预测,可能推动AI架构设计从“经验驱动”转向“理论驱动”。

正如宇宙中的星辰在引力的约束下方能有序运行,科技的飞跃亦需在规则与秩序中生长。约束并非束缚,而是自由的边界,是创新得以落地、复杂系统得以延展的基石。在这个快速发展的时代,理性的约束不仅让AI更可靠,也让科技的每一次跃迁更稳健、更深远,让人类在无限可能面前,既敢想,又可控。

*引用来源:花叔《【梁文锋署名】DeepSeek新论文:所有人都觉得没必要改的东西,他们改了》(https://mp.weixin.qq.com/s/ns9qrN8QjSnYszy9e92BTw)

mHC: Manifold-Constrained Hyper-Connections(https://arxiv.org/abs/2512.24880)

Hyper-Connections(https://arxiv.org/abs/2409.19606)

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅