编者按:本文来自微信公众号 “纪源资本”,作者:纪源资本,创业邦经授权转载。

如果在三个月前,当谈到 “真正意义上的AGI”,谈到“模型完全自我迭代”,谈到“让AI全面进入工作流”,很多头部研究者的预期还是偏保守的——主流判断,这些重大拐点的到来还需要5到10年。而在今天,其中很多人会把自己对于这个问题的答案修改为2到3年。
三个月前,很多人担心的是:等不到AI真正发展起来,行业的泡沫会先破掉。
而现在,人们的担心已经变成:AI会不会发展得太快了?我是不是要被取代了?
为什么在这个时间点,AI发展的节奏会被重新评估?因为有一件事正在发生:人工智能的第4条规模化法则(scaling law)已经开始抬头——智能体规模化(agent scaling)正在陡峭上行。
在以往,人们已经看到了3条规模化法则:
第1条,是以GPT为代表的预训练规模化法则(pretraining scaling law)。
第2条,是以OpenAI O系列为代表的后训练(post-training)和强化学习规模化法则(RL scaling law)。
第3条,是规模化推理(scale inference)阶段,测试时计算(test-time compute)的规模化——比如Google的Deep Think所做的工作。
很多人认为,基于词元预测的自回归技术(next token prediction)的规模化正在接近瓶颈,行业需要新的范式。然而,当我们看到智能体在编程等领域的表现,我们可以意识到,现有的范式还远远没有被用到极致。基于智能体的的第4条规模化法则,正在以超过很多人想象的速度快速发展衍化。
今天真正发生的,不是规模化失效了,而是规模化的对象变了。以前大家理解的规模化,更多是:数据+参数+算力,但现在更值得重视的是:智能体+系统+反馈回路。

而这一次能够撬动人工智能发展轨迹的行业变迁,就是在过去三个月中发生的。

过去的三个月发生了什么?
在谈及过去的三个月之前,先让我们把目光投向更早些时候。
2017年,Transformer神经网络出现,本质上给整个人工智能行业提供了一个可以持续规模化(scale)的统一架构。它让整个行业第一次真正看清楚:原来可以把很多不同任务放进一个统一范式里,通过规模化训练持续抬升能力的上限。
2018年,GPT和BERT走出了两条典型的路线。前者更偏生成,后者更偏理解。
后来,GPT的路线走得更远。这并不是因为它在某一个单点基准(benchmark)上一定能赢过 BERT,而是因为它更适合作为一个通用接口去承接多元的人类行为——人类和世界打交道,不是一直在做分类与抽取,而往往是要不断发出指令、设定目标,从而生成、修改、规划并执行。从这个角度看,GPT的路线早已为智能体(Agent)阶段做好了铺垫。
再往后,GPT-2、GPT-3面世了。在这个阶段,最重要的事情是大家第一次真正看到:规模化(scale)可以带来通用能力的涌现。
到了2022年,ChatGPT和RLHF带来了一个大拐点。从那一刻开始,模型不再只是“会续写”,而是更明显地“会按人的意图做事”。这一步特别关键,它让模型从一个统计意义上的“token预测器”,开始变成一个工作接口。
再往后,以o1为代表的推理模型(Reasoning Model),又把整个行业的重心重新拉回到了例如数学、编程等复杂推理的高价值任务上。其传递的信息也非常明确:不是所有token都一样值钱。行业需要能在高价值问题上持续输出,在复杂任务中保持一致性的token。

人工智能沿着上述这条历史线发展至今,已经进入了新的阶段:智能体执行(Agent Execution)。模型不再只满足于用户的问答需求,而是开始真正帮用户做起事来。
如果说去年下半年,硅谷很多头部研究者还认为行业需要下一个范式(paradigm)——可能是持续学习(continual learning),也可能是在线学习(online learning), 那么到了今天,越来越多人的判断已经开始变成:我们也许并不需要先等一个全新的范式。基于现有范式,让智能体执行能快速被规模化,可能就足够了。
而在过去的三个月中,整个行业所呈现的不再是“模型基准又涨了几分”,而是AI开始真的在工作了——它正在从工具变成智能体。
之前,AI给人的印象是,用户问它一个问题,它给用户一个答案——本质上,它仍然是一个响应式系统,一个问答系统,一个被动系统。但现在,AI的表现越来越自然,越来越准确,越来越像人。像一个同事,甚至一个团队。过去,AI像一个被调用的数据库,一个展示品。今天,它越来越像一个可以被委托工作任务的实体,一个生产单元。
就在过去的三个月中,很多原本分散的线索突然开始进行闭环。
随着行业在技术路径上走到了智能体执行阶段,在产品层面,Claude Opus 4.6、GPT-5.3-Codex、GPT-5.4,也在这一时间段内把全行业的焦点推向了编程、智能体和长时间运行任务(long-running tasks)。从而,让硅谷很多团队真正进入了“一人带十个、二十个智能体干活”的工作模式。很多公司已经开始系统性要求员工书写结构化的岗位说明书(skill)文档,用来“养”自己的智能体。人们开始在工程层面研究驾驭工程(harness engineering):如何搭建环境,如何构建反馈闭环,如何让智能体在真实任务里不断变强。

最后,这一整套逻辑都会落到创业方向、组织模式、人力决策、投资机会、多模态及机器人技术等诸多很现实的问题上。
在过去的这非常关键的三个月中,我们所看到的不是一个单点技术突破,不是“某个模型突然又变得聪明了一点”,而是行业的整套逻辑链条开始变得更加完整。
而如果要在这三个月中,进一步地聚焦,或许我们可以把目光锁定在前面已经提及的三款产品上:
2026 年 2 月 5 日,Anthropic发布Claude Opus 4.6;同一天,OpenAI发布GPT-5.3-Codex;一个月之后,2026年3月5日,OpenAI又发布GPT-5.4。
它们的共同特点是,如果只看SWE-Bench榜单,其分数可能只提高了1-2分,但是在整体模型层面,则爆发出了开创性的智能体能力。
现在看这几个产品的发布,至少可以说明三件事:
第一,模型迭代节奏已经从“按年”切到了“按月”。
第二,前沿实验室公开强调的重点,已经不再是单纯的知识量和聊天体验,而是编程、智能体、工具包以及专业级工作。
第三,产品与实际工作流在同步成熟。这意味着现有的技术已经不是实验室里的概念,而是真正开始进入现实世界的生产单元。

AI选择了智能体,
智能体选择了编程
目前,最能显现第4条规模化法则的领域,就是智能体编程。
过去的AI编程助理(coding assistant),是用户写代码,AI来帮忙补全。
而今天的智能体编程(agentic coding),用户给它的不再只是一个问题,而是一个目标。它会自己拆任务、选工具、读文档、写代码、跑测试、查错误、修bug,最后把结果交回来。
这两者的差别,不是20%或30%的性能提升,而是角色的质变。过去,用户是主程序员,AI是助手。现在,用户越来越像项目经理,而AI越来越像工程团队。用一个不那么严格,但很直观的类比来讲:今天的智能体编程开始接近自动驾驶中的L4级别——不是说完全无人参与,而是说,人已经不再需要亲自参与每一步,不再需要由自己来开出每一公里。用户无需时刻紧握方向盘,只要坐镇驾驶位上。

生产力的函数公式变了。过去,一个工程师的产出大致等于:时间×能力。现在则给公式增加了一个系数:时间×能力×agent数量。AI给人的不只是“更高的效率”,而是规模化的能力。用户得到的不是一个“更快的自己”“更聪明的自己”,而是一个“被放大的自己”。
OpenAI在2026年2月的开发者博客里展示过一个非常有代表性的案例:GPT-5.3-Codex在一个空白repo上连续跑了约25小时,消耗了约1300万tokens,生成约3万行代码——这显然不是普通人类工程师所能做到的。这个案例意味着,AI不只是在提升这个世界的平均IQ值,它还在修改时间的尺度。它比人类更擅长与时间达成更完美的协作,从而产生更可观的规模化效应。
而之所以智能体编程天然适合缔造全新的规模化法则,因为它同时满足了几个非常关键的条件:
第一,智能体编程有非常直接的可验证激励(verifiable reward)。代码能不能跑,测试能不能过,bug有没有被修正,结果是不是符合规范,这些反馈都来得非常直接。不需要进行标准模糊的人类偏好打分,也不需要特别复杂的主观对齐。
第二,智能体编程的数据天然可以大量合成。人类历史上并没有足够多“AI在环境里自己写代码、自己出错、自己修复、自己迭代”的编程数据。而一旦智能体学会了在环境里跑任务,它就能自己产生新的轨迹数据。
第三,智能体编程天然支持自我迭代和闭环强化。智能体在环境里执行任务、获得反馈、修正自己,不是一次性预测,而是在不断制造新的训练信号。这意味着系统会越来越强,而不是只能依赖外部继续喂静态语料。
把以上这三个条件放在一起来看,智能体编程从本质上是在构造一个可验证、可合成、可自我强化的智能引擎(Intelligence Engine)。
这并不与规模化法则对立,反而是法则在新的维度上获得的再一次巨大胜利,一次重新的启动。

那么此刻,人在做什么?
在智能体编程的强有力驱动下,很多前沿实验室和最前沿的与企业创立者,都开始在真实的工作场景中,启用了由一个人带领“agent团队”来工作的模式。所要做的工作,不再是亲自手写每一行代码,而是分配任务、审核结果、调整方向、控制节奏。
真正的变化,不只在于效率的提升,更在于最小生产单元变了。过去的最小生产单元,是一名员工。现在,则是一个人+一组agents。这种工作模式很容易让人想到今年很火的一个概念:养虾。
这个极其形象的比喻,准确描述了今天很多团队的实际状态:每个人都在训练、管理、扩充自己的“虾群”——一组agents。不只是调用一个模型,而是在养一群能替自己干活的小东西。给它们上下文,给它们技能,给它们工具,给它们要跑起来的任务。
很多团队都在做一件事情:让员工把自己的知识、经验、工作流程(workflow)系统性地写下来,形成一个相当于“技能包”的SKILL.md,以此来告诉智能体,这项工作需要的技能是什么,什么时候触发,该如何执行。

由此,人的能力得以结构化蒸馏。或者说,人可以把自己的能力,蒸馏进自己所训练的智能体中。将那些隐性的、抽象的、附着于人的技能提纯,并规模化于智能体阵列中。把人的意识变成提示词,把人的经验变成上下文,把人的工作流程变成可规模化的系统能力。
白领的工作技能可能很快会实现AGI化。把智能体编程的逻辑延展到到白领们常用的工具,Excel、PPT、Word,延展到日常工作的分析、汇报,及整个标准业务流程中,我们会发现,这些工作也天然适合被智能体系统性地学习并掌握。将白领的日常工作在智能体中跑通,并外溢到更广泛的环境中,只是时间问题。
而由此,驾驭工程(harness engineering),也就呼之欲出了。
一个智能体之所以能在实际工作中跑得通,不只取决于模型本身足够强,还在于有人为它搭建了一个能够工作的环境。
驾驭工程本质上在做三件事:
第一,构建任务环境,将真实的工作场景模拟出来,把信息给足。
第二,设计反馈机制,让系统知道什么是对,什么是错,什么是高质量。
第三,形成数据闭环,让智能体可以在环境里反复试错,不断积累经验。
模型是大脑,驾驭工程则在构建一个世界。如果没有环境,模型最多只能聊天。 有了环境,模型才开始工作。
今天我们看到智能体编程取得率先突破,很大程度上就是因为其工作场景太适合做驾驭工程了——奖励机制非常直接,目标非常清晰,测试可以自动化,成败可以验证,环境可以模拟,数据还能不断自我生成。
很多垂类智能体的真正护城河,未必在模型,而在于环境。谁能把真实工作流程、工具链、反馈回路、评测系统和数据闭环搭建得最好,谁就更有机会做出真正稳定的,被广泛接受的智能体平台。
那么,智能体的进化对于人而言,究竟意味着什么?我们的推论是:智能杠杆效应,或者说,智能放大(intelligence leverage)。
在很多人的直觉中,AI会让智能像电一样普及,成本越来越低。最后,每个人都获得了均等的智能增益。
这个想法,有一半是对的:AI的确在降低“平均智能”的成本。但同时,它也在抬高更前沿、更高价值智能的门槛。
最强模型的训练和推理,已经不再是一个纯软件问题。它是电力问题、冷却问题、数据中心问题、网络问题、资本开支问题、供应链问题等形成的一整套工业问题。其结果,必将是无可避免的悬殊与分化。
而与此同时,智能体把这个问题进一步放大了。很可能只有少数公司、少数团队、少数个体,能够长期调用高频、高深度、强推理能力的智能体系统。而绝大多数普通玩家,则只能使用限速、降配、被预算约束的版本。高端智能并不会成为一件通行商品,而更可能演化为稀缺资源。
这个世界很可能再次开始分层。这一次,是智能层面的差距会被不断放大。AI并不是要让人变得更智慧,而是能够扩展、规模化每一个人的智慧。AI不会平等地改变世界,却很可能会极端地放大差距。更重要的不是“谁更聪明”,而是谁可以调用更高等级的智能。

AI并不只是在替代人,它更是在加速扩大智能的规模,加速提升整个系统的价值。AI甚至正在加速AI自身的研发。
如果和工业革命做类比,工业革命是机器替代人,提升的是产出。而这一次,是机器开始参与设计下一代机器——不只是在提升生产力。更是在提升“提升生产力的速度”。
用一句话来概括:对于AI,短期看是替代,中期看是加速,长期看是扩张。
把这个逻辑再往前推一步,就会得到那个相当激进,但也越来越值得被认真对待的判断:AGI的出现,已经近在眼前。
而当AI开始系统性地对AI本身进行自我迭代时,我们也就将真正接近那个万众瞩目的奇点。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。







