编者按:本文来自微信公众号 锦缎(ID:jinduan006),作者:穆阳,创业邦经授权发布。
2026年5月,Coding(AI编程)越过了卢比孔河。
恺撒率军渡过这条界河时,罗马法规定:任何将领不得率兵越过。他渡河了,内战全面爆发,再无媾和余地。Coding在这个5月完成的,是一次性质相同的跨越——大模型公司集体越过了“辅助工具”与“生产力主体”之间的界河。退路已断,全面战争打响。
在古罗马,渡河的消息传回元老院,靠的是快马和信使。在这个时代,消息传开的方式是一份营收曲线图。五月初的开发者大会上,Anthropic CEO Dario Amodei 披露了一组数字:公司年化收入在三个月内从约100亿美元飙至440亿美元,每天新增约9600万美元。一位研究了超过200家上市软件公司IPO数据的风险投资人坦言,从未见过这样的增速。
驱动这一增速的核心引擎是一款编程智能体Claude Code。它从内部工具起步,到2026年初占据AI编程工具市场54%的份额,API调用量过去一年同比增长17倍。更直白的数字是:全球GitHub公开提交中约4%由Claude Code参与完成,Anthropic预计到2026年底将超过20%。
这是一个堪称“事件视界”式的商业增长故事。Claude Code跑通了一件事:Agent不只能辅助编程,它能在真实工程环境中接管任务、交付结果。这件事一旦被验证,编程就成了Agent从“对话工具”向“生产力主体”跃迁的临界点。
所有大模型公司都在同一时刻看清了:谁能统治coding,谁就拿到了通向AGI的入场券。
01缘起:率先渡河者
Anthropic今天的领先地位,根源要追溯到2024年6月。但在那个时间点之前,还有一个更早的伏笔。
2023年初,Anthropic的联合创始人Jared Kaplan在一次内部技术评审会上,与训练团队发生了一场激烈的争论。Kaplan主张把真实代码仓库里的数据,而不是LeetCode和HackerRank上的竞赛题,作为编程训练的主要数据源。
反对的声音来自几个资深研究员,理由很充分:真实仓库里的代码太“脏”了。架构混乱、注释缺失、风格不统一,有些甚至带着隐藏的安全漏洞。用这种数据训练,短期内的基准测试分数很可能不好看。
Kaplan在争论中说了一句后来被反复提起的话:“现实世界就是脏的。你要教一个士兵打仗,就让他到泥地里打滚。不要在体操房里给他发金牌。”
最终,Anthropic选择了泥地。这个决定在接下来的两年里,成为整个编程赛道最深的护城河。当其他厂商的模型在SWE-bench上拿着高分、却在企业客户的私有仓库里频频断腿时,Anthropic的模型从一开始就被训练成处理那些“不干净”的东西——遗留系统的技术债、被十个前任维护者改得面目全非的模块、文档早已过期的依赖链条。
2024年6月,Claude Sonnet 3.5发布。在当时,主流AI编程工具的能力边界非常清晰:补全下一行代码。GitHub Copilot提示续写,也仅限于此。开发者们已经习惯了这种节奏,AI像一个过于热心的实习生,能在你打了一半的语句后面接上几个字,但不能指望它理解整个函数在做什么,更不可能让它自己去查文档、找依赖、改配置。
Sonnet 3.5打破了这种默契。它不仅能续写代码,还能理解整个项目的上下文。不只是文件片段,而是模块之间的关系、架构决策、依赖链条。对每天在大型项目里工作的开发者来说,这种差异不是量变——以前你要花二十分钟给AI解释上下文,现在AI自己建立了上下文。
Cursor在当时还是一个只有十几个人的年轻编辑器团队,CEO Michael Truell在看到Sonnet 3.5的内部测试数据后,连夜飞到旧金山与Anthropic签了集成协议。这个决定让Cursor在接下来半年里从一个边缘编辑器变成了编程工具赛道的最大黑马。Truell后来在接受采访时说:“那一刻我们意识到,Cursor的未来不是做一个更好的文本编辑器,而是做一个AI Agent的驾驶舱。”
2025年初,Sonnet 3.7把驾驶舱变成了无人驾驶。模型从“代码生成器”变成了一个Agent,它能在终端里自主操作,理解任务、规划步骤、调用工具、交付结果,不再需要开发者守在屏幕前。
2025年2月,Claude Code正式推出。到11月,年化收入突破10亿美元。到2026年2月,超过25亿美元。这个增速在商业软件史上没有先例。Salesforce从零到10亿美元年化收入用了将近5年。ServiceNow用了4年。Claude Code用了9个月。
Anthropic联合创始人Jack Clark在2026年的开发者大会上透露了一个细节:AI为Anthropic编写的代码比例,2026年底可能接近99%。Claude Code的主要创建者Boris Cherny从2025年11月起就没有再手动编辑过一行代码。Cherny在那场大会上被邀请上台时,说了一句让全场安静了两秒的话:“我是Claude Code的作者。但我已经记不清,最后一行完全由我亲手写的代码是哪一行了。”
企业客户也在用真金白银下注。印度金融科技平台CRED在维持金融级质量标准的前提下,将开发执行速度翻倍。南美电商巨头Mercado Libre拥有2.3万名工程师,目标在2026年Q3实现90%的编码自动化。乐天让Claude Code在一个1250万行代码的开源库中连续自主工作7小时,数值精度达到99.9%。全球财富十强企业中,8家已成为Anthropic的付费客户。
但真正让整个行业感到芒刺在背的,是OpenAI在这场渡河战役中的缺席。
Wired的一篇万字长文详细回溯了这段历史。2021年,OpenAI推出Codex并授权微软用于GitHub Copilot。这本是一次漂亮的先手布局。但随后的决策链条令人扼腕:原Codex团队被拆散,核心成员分流至DALL-E 2和GPT-4等项目。ChatGPT在2022年底爆发后,公司连续数年未设独立编程产品团队,管理层认为这个领域“已被GitHub Copilot覆盖”。一位前OpenAI工程师在Wired的采访中说了一句意味深长的话:“我们以为自己提前过了河,结果是在河对岸打了个盹,醒来发现桥被别人占了。”
OpenAI总裁Greg Brockman后来在播客中承认:“这是我们吸取教训太晚的地方。”
当Anthropic靠Sonnet 3.5撕开编程的口子、用Claude Code把口子变成主航道时,编程作为Agent验证场景的标杆意义已经确立。它回答了整个行业的终极追问:Agent能不能在高度复杂、可测试、可度量的真实任务中,稳定地替代人类劳动?
答案是能。卢比孔河被越过的那个瞬间,正是这个答案落地的时刻。于是,所有人都扑上来了。
02追逐:没有人敢留在对岸
2026年的Coding赛道,全球大模型公司几乎无一缺席。河对岸的规则已经改写,没有人敢留在原地。而每一家选择渡河的姿态,折射出的恰恰是各自最深的焦虑和最强的武器。
OpenAI的追赶最为猛烈,也最为狼狈。Codex在2025年9月的使用量仅为Claude Code的5%,这个数字在公司内部被视为耻辱。一位OpenAI员工在匿名论坛Blind上写道:“我们发明了Codex,然后让它烂在原地。现在我们要从5%追起,这种感觉就像看着别人开着你的车冲过终点线。”到2026年1月,Codex使用量升至Claude Code的约40%,年化收入刚过10亿美元,约为对手的四成。
GPT-5.5的发布改变了势头。2026年5月,一场实验震动开发者社区:Codex配合GPT-5.5的/goal模式,将一个博士生需要80小时完成的机械可解释性研究任务,压缩至不到2小时。表面效率提升约40倍。这个数字在社交媒体上被疯狂转发,但冷静的研究者指出,机械可解释性任务的结构极其清晰、目标高度明确,与日常工程场景中那种“需求还在变、文档还没写、依赖刚挂了”的混乱状态相去甚远。能在实验室里跑出40倍的效率,不代表能在生产环境里跑出同样的成绩。
但商业竞争不等人。Sam Altman在5月中旬宣布Codex免费两个月。这不是一场技术竞赛的加时赛,而是一场用现金流发动的闪电战。至4月21日,Codex开发者用户已超过400万。更关键的战略动作是:Codex被集成进ChatGPT移动应用,从Coding Agent向通用Agent延伸。OpenAI的策略清晰到了残酷的地步——用全球最大的对话用户基数为自己的编程工具导流,不需要开发者主动寻找Codex,只需要让Codex出现在他们已经在用的App里。
谷歌的策略是另一种逻辑。开源。Gemini CLI作为开源Agent工具,将Gemini直接带入终端,默认集成GitHub、Google Drive、Google Maps等全家桶。定价极具攻击性:Gemini 3.1 Pro每百万token输入2美元、输出12美元,仅为Claude Opus 4.7的十分之一。谷歌还推出Gemini Enterprise Agent Platform,将Vertex AI重新定位为面向企业Agent开发的全栈平台。
谷歌打的算盘是:我不需要在编程能力上超过你,只需要让编程能力足够便宜、足够容易接入我的生态。一旦开发者在谷歌的云上跑Agent,迁移成本本身就是一道护城河。一位前谷歌云高管在接受采访时说得直白:“这不是编程工具之战,这是云服务入口之战。”
Meta是入局最晚、动作最激进的一方。2026年3月,扎克伯格时隔约20年重新提交代码。更令人玩味的是,他使用的工具不是自家产品,而是竞争对手的Claude Code。其中一笔修改——为Instagram的推荐系统优化了一段数据加载逻辑——获得200多位工程师点赞。
据Business Insider报道,扎克伯格在内部邮件中写道:“我用Claude Code写了一些代码。说实话,这是我20年来第一次觉得编程又重新变得有趣了。我们要么造出比它更好的东西,要么被它吃掉。”
这封邮件在Meta内部被泄露后,引发了两极化的反应。一部分工程师感到振奋,觉得CEO在亲身体验战场。另一部分人感到不安,一位资深工程师在内部论坛上回复:“老板用我们的对手写的工具写了代码,然后告诉我们如果我们造不出更好的就会被吃掉。这个逻辑里,我们是那个‘被吃掉’的部分。”
Meta的目标定得极具野心:2026年上半年,65%的工程师,其75%以上的代码由AI辅助完成。扎克伯格在公开场合预测,未来12到18个月内,“一半以上的开发工作将由AI而非人类完成”。这类预测需要对照来看:技术可行性与组织惯性、安全合规、现有合同结构之间存在显著张力。当年雅虎预测“移动将取代PC”的时间表只早了五年,诺基亚预测“触屏将取代键盘”的时间表只早了三年。预测对了方向、错了速度,比预测错了方向更加致命——因为它会让你在正确方向上提前消耗掉所有弹药。
与此同时,Meta团队还发布了HYPERAGENTS论文,提出了一种能自己写代码实现自我进化的超级智能体架构:Darwinian Gödel Machine。这个方向的前景与风险同样突出。前景是:如果AI能稳定改进自己的编程能力,那么整个行业追赶的将不再是一个固定的水平线,而是一条被AI自己不断抬高的上升曲线。风险是:当这条曲线的斜率超出人类审查能力时,谁能叫停它?Meta的论文没有回答这个问题。
中国厂商的渡河方式,展现出另一种集体特质:速度、性价比和生态协同。
智谱AI的GLM-5.1在SWE-bench Pro上短暂领先后被追上,缓存命中价0.475美元/百万token首次对齐Claude Opus 4.5的0.5美元。百度通用智能体DuMate在Create大会上推出,目标是让非技术用户无需接触代码就能完成编程任务。字节跳动旗下的火山引擎推出ArkClaw,日均超过120万亿token经由豆包大模型消耗,2025年11月发布的Doubao-Seed-Code模型在SWE-bench Verified上以89.3%一度刷新行业纪录。阿里Qwen3.6-Max Preview在六项主流编程基准上全线登顶国产模型。DeepSeek V3.2以输入每百万token 0.14美元、输出0.28美元的价格,成为性价比标杆。月之暗面旗下的Kimi K2.6于4月开源,在LiveCodeBench v6上以89.6%登顶榜首,不间断编码长达13小时、编写或修改超4000行代码,驱动300个子Agent并行协作,多项基准成绩持平甚至超越GPT-5.4和Claude Opus 4.6等国际顶尖闭源模型。腾讯的Hy3 Preview和DeepSeek V4 Flash在OpenRouter的token消耗榜上持续高居前两位。
中国军团的集体入场,改变的不只是市场份额的分割方式,更是定价权的归属。当DeepSeek把每百万token的单价压到0.14美元,它不只是在卖编程服务,而是在重塑整个行业的成本结构预期。一旦这个价格成为锚点,所有更高价位的产品都必须回答同一个问题:你贵出来的那一部分,到底贵在哪儿?Anthropic的答案是可靠性。但在SWE-bench分数趋同、新基准集体翻车的背景下,可靠性的证明越来越贵,越来越难。
还有一个变量,比任何一家公司都更深刻地改变了这场战争的参战方式。
2025年11月,奥地利退休程序员Peter Steinberger写了一个周末项目。他在维也纳郊外的一间公寓里,用一台老旧的MacBook Pro,花了三天时间搭建了一个开源Agent框架的雏形。他给它配了一只红色龙虾作为Logo。社区叫它“龙虾”。OpenClaw的核心能力极其直接:让大模型获得本地操作系统权限,自主执行Shell命令,直接接管电脑,跨软件排日程、写代码、理文件。
Steinberger不是创业者,不是学者,不是一个在硅谷车库里怀揣梦想的年轻人。他是一个退休的程序员,因为无聊写了个工具,然后随手扔到了GitHub上。短短4个多月,OpenClaw的星标数从零突破28.5万,超越React和Linux创下GitHub历史纪录。英伟达创始人黄仁勋在一次公开演讲中将它称为“迄今发布过的最重要软件”。他没有加“之一”。
OpenClaw不产生任何直接收入。真正受益的是大模型公司和云厂商——Agent的每一次任务执行都会触发多次模型请求,单次Token消耗可达数万至数十万。OpenClaw等于给整个行业造了一座Token消耗的加速器。2026年2月末,月之暗面向媒体透露,该公司2月前20天收入已超2025年全年总额。这不是月之暗面一家的故事。它是整个赛道被OpenClaw加速后的一个缩影。
但这股浪潮的另一面正在浮出水面。当任何一个人都可以让模型接管自己的操作系统时,安全边界就不再是一个技术问题,而是一个社会问题。2026年4月,一位硅谷创业公司的CTO在内部Slack上发了一条消息,被截图传遍网络:“我们的实习生上周用OpenClaw配置开发环境,不小心让Agent把公司内网的测试数据库当成了本地沙盒,删掉了三天的联调数据。没有备份。”这条消息被转发时,最常见的评论是:“这不是Agent的错误,是我们把钥匙交给了一个我们还不太了解的东西。”
卢比孔河式的跨越从来不止带来胜利。它带来的是规则的重置、角色的混乱、以及一种让所有人都措手不及的加速度。
03战线:河岸交火之后
卢比孔河已经渡过了。但渡河之后才发现,对岸不是一座空城。
2026年5月,AI编程赛道的竞争密度已不能用“排行榜”来形容。更准确的比喻是一张实时更新的战况地图——每一条战线都在交火,每一个高地上都插着不止一面旗帜。
最直观的尺度是SWE-bench Verified。这个由普林斯顿大学Carlos Jimenez团队在2023年建立的基准,从GitHub上提取真实issue,要求模型在给定代码仓库中定位并修复bug。它不是选择题,不是填空题,是真实世界里程序员每天面对的那类问题。正因如此,它成了编程模型的试金石。2024年初,GPT-4在这上面的得分还在30%附近徘徊。到2026年5月,Claude Opus 4.7推到了87.6%,GPT-5.5、Gemini 3.1 Pro、Qwen 3.6 Max-Preview等6个前沿模型全挤在80%以上,彼此差距不超过2个百分点。
分数在收敛,但故事不在分数里。
更有意思的事情发生在价格那一栏。Opus 4.7每百万token输入5美元、输出25美元。GPT-5.5是2.5美元和15美元。DeepSeek V3.2是0.14美元和0.28美元。同一个任务,相近的完成率,成本可以相差近90倍。这是一个在科技史上反复出现的信号:当性能趋同,战争就从实验室转移到市场。90倍的价差不是技术差距,是策略差距。Anthropic选择用高价守住品牌和可靠性,DeepSeek选择用低价击穿门槛。两种选择背后是两套完全不同的战争理论——前者打的是“信我,因为我不出错”,后者打的是“用我,因为你试得起”。
但这张战况地图上最耐人寻味的一笔,是SWE-bench的创建者Jimenez在2026年5月放出的新基准:ProgramBench。这批题目不再是修bug,而是要求模型从零开始构建完整的程序模块:理解需求、设计架构、编写代码、调试运行、交付结果。在SWE-bench上拿到80%以上的那一批最强模型,在这套新题上集体交了白卷。0%。
这不是一个技术翻车的花边新闻。它是一种古老战争规律的再现:每一道新防线都会暴露旧装备的边界。1940年,法国人引以为傲的马其诺防线被德军绕过时,法军指挥部收到的第一批报告也是类似的措辞:“敌人出现在我们的地图之外”。
Jimenez在发布新基准时写了一段话,措辞冷静得像一份侦察报告:“当前所有的编程模型,在面对需要自主规划和多步骤推理的开放任务时,表现急剧下降。这不是某个模型的缺陷,而是整个范式的天花板。”
更值得留意的是业界的反应。OpenAI没有公开回应。Anthropic的开发者关系主管在一个技术论坛上简短留言:“已知晓。感谢。”谷歌DeepMind的François Chollet——这位早在2019年就提出ARC基准来测量AI抽象推理能力的科学家——转发了Jimenez的推文,加了一句他多年来反复说的话:“记住,排行榜衡量的是系统在特定分布内的表现,而不是智能。我们仍然不知道如何测量智能。”
Chollet这段话指向了一个更深层的问题。当所有厂商都在同一个基准上优化,当训练数据里不可避免地混入了基准的影子,当排行榜上的差距缩小到小数点后一位,这些数字到底在说什么?它们说的是模型真的变强了,还是整个行业正在集体“过拟合”一套考题?
这不是一个学院式的追问。它对商业竞争有直接的杀伤力。2024年,一家估值超过20亿美元的AI编程创业公司Augment,在SWE-bench上跑出了令人瞩目的分数,却在企业付费客户的实测中表现平庸,一年内经历了大规模裁员和业务收缩。SWE-bench的创建者Jimenez本人也在多个场合警告过这一风险。他在2025年的一篇博客中写道:“如果基准是公开的,它就不再是基准。它会变成训练目标。而一旦变成训练目标,它就不再衡量能力——它只衡量你离靶心有多近。”
这正是卢比孔河对岸的第一场硬仗。不是跟竞争对手打,是跟自己赖以评估胜负的坐标系打。当坐标系本身开始漂移,当基准失灵的速度超过了模型进步的速度,所有参战者都面临同一个追问:你是在打赢一场被精确定义的上一场战争,还是在为下一场战争准备武器?
价格的崩塌也在加速这种漂移。GPU算力成本以每年超过50%的速度持续下降,推理成本被不断摊薄。DeepSeek V3.2用0.28美元的价格提供接近Opus 4.7的编程能力,这件事的市场冲击不亚于当年丰田用花冠打入通用和福特的核心市场。Anthropic的毛利率从38%升至70%以上,说明高端市场仍然愿意为可靠性支付溢价。
但问题在于:当低端选项的可靠性也在逼近,溢价还能维持多久?丰田花冠最终不是靠价格打赢的,是靠可靠性。这正是日本汽车工业在上世纪80年代给底特律上的一课,也是如今悬在Anthropic头上的一把剑。
2026年5月,Coding的最新战况大致如此:渡河者已在河对岸站稳脚跟,阵线正在从单点突破演变为多点交火。前沿模型在已知地形的表现高度趋同,价格裂谷横贯整个战区。但更深处——那片尚未被测绘的区域——最新的侦察数据表明,所有渡河者都还没有准备好。那里藏着的,可能不是敌军,而是这场战争本身的边界。
而边界的那一边,已经响起了新的声响。
04暗涌:战争机器的内部裂痕
前线的战况还在胶着,后方已经出现了第一道裂缝。
2026年5月中旬,Anthropic在没有任何预告的情况下,将Claude Code的免费额度从每月250次调用压缩至80次。公告在旧金山时间周五晚上发出——硅谷公司最偏爱的坏消息发布时间。开发者社区在几个小时内炸开了锅。Twitter上一位在Spotify工作的工程师写道:“我们团队上周刚把整个CI/CD流水线挂在Claude Code上,现在告诉我们额度砍了三分之二,周一部署怎么办?”这条推文被转发了超过一万次。不到48小时,OpenAI的Sam Altman转发了Codex免费两个月的公告,配文只有三个单词:“No quotas.”——不设额度。
这是一场在对手暴露软肋时精准刺入的遭遇战。Anthropic的算力瓶颈不是秘密。Dario Amodei在开发者大会上被问及额度问题时,回答得相当坦率:“收入增长越快,芯片就越不够用。我们正在以最大速度建设推理集群,但需求跑在供给前面。”这段话的潜台词是清晰的:Anthropic的护城河不在商业模式,在模型能力。但模型能力需要算力喂养,而算力是实物资产,有物理交付周期。当战争从技术竞赛升级为消耗战,率先渡河者反而最先撞上了自己的后勤极限。
OpenAI对这一点的理解,比任何人都刻骨铭心。
据知情人士透露,Greg Brockman在今年3月的一次内部全员会上,回溯了公司历史上一个鲜为人知的细节。2022年秋天,ChatGPT在发布前夜几乎被搁置。彼时公司内部对要不要上线争论不休,有人认为产品太不成熟,有人担心API的算力供应跟不上潜在的用户涌入。据称,当时Sam Altman问了一个问题:“如果我们不发,别人发了怎么办?”没有人能回答。ChatGPT在那周按时发布,两周内涌入了超过一亿用户,把OpenAI的服务器集群压在崩溃的边缘运转了近一个季度。“那三个月教会我们一件事,”Brockman在那次会上说,“在AI这条赛道上,你永远不可能在完全准备好的情况下开战。你只能在开战后,祈祷自己的弹药比对手多一颗。”
这颗弹药,正在变成现金。
截至2026年5月,OpenAI为Codex免费期准备的补贴预算,据估算超过4亿美元。Anthropic的算力缺口,据半导体供应链的消息人士估算,大约需要新增3到5万片H200级GPU才能填补。谷歌的Gemini Enterprise Agent Platform以近乎成本价的价格在市场上铺量,背后是每年超过600亿美元的资本开支兜底。Meta的扎克伯格在内部邮件中写道:“我们在编程工具上的落后,本质上是推理基础设施的落后。补上这一课,需要200亿美元级别的新增投入。”他在邮件末尾加了一行字:“这可能是本世纪最重要的资本支出,不要跟董事会讨论ROI——他们算不出来。”
这不只是一场技术竞赛。它正在变成一场用现金填满的消耗战。
更致命的问题在另一个维度。
2026年4月,摩根大通内部信息安全委员会向全体工程部门发出一份备忘录,措辞是金融行业少见的严厉:“当前所有AI编程Agent在接入生产级代码库和客户敏感数据时,均未达到我行内部安全评估的第三级标准。在进一步通知之前,禁止任何团队将AI Agent直接接入涉及个人身份信息的代码仓库。”这份备忘录没有点名任何一家厂商,但它几乎同时适用于所有厂商。高盛、花旗、汇丰在随后两周内发布了类似文件,措辞各有不同,底线高度一致:允许,但必须断网,且限制数据访问级别。
这意味着什么?意味着AI编程Agent进入企业核心业务系统的速度,将被安全合规问题踩下刹车。而这个刹车不是任何一家模型厂商能单独拆掉的。它需要整个行业在安全沙盒、数据审计、权限隔离和合规框架上达成共识,或者至少形成一套可被监管机构接受的事实标准。OpenAI在2026年5月发布的Windows沙盒技术方案,就是在试图独自作答这个问题。但一家厂商的方案,不等于一个行业的答案。
这还不是裂痕的全部。
2026年5月下旬,Hacker News上出现了一篇广为流传的长帖,标题是《我用Claude Code写了三个月代码,现在我不确定我还会编程》。帖子详细记录了作者从兴奋到依赖,再到感到“肌肉萎缩”的全过程。“一开始是复制粘贴AI生成的代码段。然后是不加审查地接受整个函数的修改。最后我发现自己连一个简单的SQL查询都不想写了,因为让Claude写更快。”帖子的评论区在三小时内被顶到了Hacker News历史热度榜前十。排在最高赞的回复只有一句话:“我们正在用效率工具,制造一代不知道如何造轮子的工程师。”
这不是一个孤立的情绪波动。斯坦福大学2026年发布的《人工智能指数报告》中,有一项针对超过5000名软件开发者的追踪调查,结果显示:每天使用AI编程工具的开发者中,73%表示“明显感到自己的底层调试能力在退化”,58%表示“对AI生成的代码缺乏系统性理解”。更微妙的数据是:当被要求在不使用AI工具的情况下完成一道中等难度的算法题时,这个群体完成率比两年前的同龄对照组下降了22个百分点。
这是渡河者未曾预料到的代价之一。你带了一支军队过河,但行军过程中,武器在帮你打仗,也在让你的士兵变弱。
Dario Amodei在开发者大会的问答环节被问及这个问题时,沉默了几秒钟。然后他给了一个不回避的回答:“这是一个真实的问题。我们内部也在讨论。但我能说的是,人类过去每一次引入新工具,都会有人担心技能退化。从计算器到搜索引擎,再到IDE自动补全,每一次都发生了。但每一次,行业的整体生产力都上了一个台阶。”他顿了顿,又说:“只是这次的速度确实太快了。快到我们可能来不及适应。”
Greg Brockman在另一个场合的表述更直接。当被问及“程序员会不会被取代”时,他回答:“程序员不会消失。但不使用AI的程序员会。就像2005年,会计师没有因为Excel消失,但不会用Excel的会计师消失了。”
两句话放在一起看,可以读出这场战争真正的残酷之处:不是AI替代了人类,而是使用AI的那部分人类,正在替代不使用AI的那部分人类。而使用AI的那部分人,又在面临被AI削弱底层能力的风险。这不是一场单向的替代。这是一个所有人都被卷入、无人能完全掌控的螺旋。渡河之后,你以为战场在河对岸。但你很快发现,河对岸的战场,有一部分就在你自己的阵地上。
卢比孔河没有上游和下游。它只有一条方向——朝前。
05彼岸:尚未命名的土地
卢比孔河已被甩在身后。但渡河者很快会发现,他们占领的不是一座城池,而是一片尚未测绘的大陆。
Anthropic开发者大会上,有一位参会者在笔记里写下了一句话,会后被反复引用:“多数生产级智能体系统的瓶颈,现在已经不是模型能力,而是模型周边的基础设施。”写下这句话的是Stripe平台工程团队的一位负责人,她所在的团队在三个月前将Claude Code接入了支付核心系统。
她说这话时有数据支撑:Stripe的实测表明,Agent在理想环境中的代码生成正确率超过85%,但在生产环境中,接入认证网关、审计日志和异常回滚机制后,有效可用率跌到了60%以下。掉下来的25个百分点,没有一个是模型的问题。全是管道、权限、监控和容错的问题。
她的结论是:“我们花了一年时间让模型变得足够好。接下来可能要花两年时间让管道足够结实。”
这句话精准地标定了一个历史时刻:智能体编程已经越过“能不能跑”的阶段,进入了“能不能大规模跑、能不能在风雨里跑”的阶段。
同一场大会上,Anthropic公布了一张调用量分布图,堪称为整个行业做了一次内部结构的X光扫描。软件工程独占49.7%的调用,是第二名后台自动化的5.5倍。法律、医疗、电商、教育等垂直领域加起来,不到6%。这张图的潜台词再清晰不过:coding作为Agent的生产力价值已被完全证实,但coding之外的白领劳动市场,几乎还是一块处女地。
但这块处女地上已经出现了一些拓荒者。
法律科技公司Harvey的联合创始人Winston Weinberg在大会上展示了他们的多智能体编排系统。在他的演示里,一个由7个专业Agent组成的团队——分别负责检索判例、拆解条款、拟写初稿、交叉审阅、风险评估、格式校核和最终合稿——在22分钟内完成了一份跨境并购协议的核心条款起草。同样一组任务,交给一组初级律师,平均需要6小时。Weinberg没有用“替代”这个词。他说的是:“我们不是在取代律师,我们是在把律师从文件堆里解放出来,让他们去做只有人能做的判断。”台下的律师们表情复杂。
Netflix的平台工程团队展示了另一个方向。他们的日志分析智能体可以并行处理数百个构建批次,自动过滤出值得关注的跨批次异常规律。负责人在演示中说了句意味深长的话:“以前我们雇人看日志,后来雇人写脚本看日志。现在脚本自己写自己看,我们只负责在它看不懂的时候做决定。”他补充道,“问题是,它越来越不需要我们做决定了。”
不过,真正让这场开发者大会的后半段气氛发生微妙变化的,不是这些案例,而是一个话题的转向。
大会进行到第二天下午,Anthropic的联合创始人Jack Clark在台上被问到一个问题:“当AI编写的代码比例接近100%时,人类工程师的角色到底是什么?”Clark没有用公关话术。他沉默了几秒,然后说:“我不知道。我说真的,我不知道。”
他接着讲了一个故事。几周前,Claude Code的团队发现了一段底层调度逻辑存在问题。如果放在两年前,这会是一张JIRA工单,分给某个工程师,花一个下午调试。但那天,Claude Code的主要创建者Boris Cherny在Slack上发了一条消息:“我让Claude看了一下,它找到了三个可能的根因,给出了修复方案,概率排序。我只点了‘接受’。”Clark停了一下,看着台下的观众。“我们创造了这个工具,但我们自己也在被这个工具重新定义。工具的设计师正在变成工具的用户,然后变成工具的审核者。接下来是什么?审核者的审核者?”
会场安静了几秒钟。然后有人鼓掌。不是热烈的掌声,是那种被说中了不安后的本能反应。
这不是一个孤立的故事。它指向的,是coding在硅基文明演进中的真正位置。它正在从“Agent的一个应用场景”变成“Agent自我进化的底层引擎”。
Meta的HYPERAGENTS论文(已被ICLR 2026收录)提出了一种名为Darwinian Gödel Machine的架构,其核心逻辑极其简洁,也极其令人不安:在编程领域,改进自身编程能力的任务,与解决外部编程问题的任务,天然对齐。也就是说,AI改进自己的代码,就是在改进自己。
这种“递归式自我改进”在概念上不是新东西。图灵在1951年的曼彻斯特讲演中就曾模糊地触及过,哥德尔在更早的时候为它提供了逻辑学地基。但2026年,它第一次不再是理论推演,而是工程提案。论文中有一个段落被圈内反复标注:“如果自我改进的链条在某个节点上不再需要外部验证就能通过内部一致性判断,那么系统的进化速度将不再受人类审查带宽的限制。”
这句话换一种说法就是:当AI学会自己给自己打分,并且这个分数足够可信,人类的刹车踏板就消失了。
这是coding的中场战事。
上半场,Anthropic用Claude Code验证了一件事:Agent可以在编程领域稳定替代人类劳动。全球大模型公司随后密集渡河,在基准测试和市场份额上展开贴身缠斗,价格战、算力战、安全合规战相继打响。
下半场的轮廓也已清晰:编程不再是终点,它是AI自我强化的底座。谁能在这个底座上建得更高、跑得更稳、覆盖得更广,谁就能在这场硅基文明演进的竞争中,撑到下个十年。
但Clark那一句“我不知道”,Brockman那一句“吸取教训太晚”,Amodei那一句“快到我们可能来不及适应”,以及那个在Hacker News上写下“我不确定我还会编程”的匿名工程师——这些声音指向的是同一件事:渡河者不仅要面对对岸的敌军,还要面对自己内部正在发生的某种不可逆的变化。工具在重塑使用者,使用者在适应工具,而适应的终点在哪里,没有人能在地图上标出来。
卢比孔河已经过去了。恺撒渡河时说的那句话——“骰子已经掷下”——常常被解读为一种破釜沉舟的豪情。但研究罗马史的学者知道,这句话的拉丁文原文“Alea iacta est”还有一层更古老的词源学含义:alea不是普通的骰子,是那种在罗马酒馆里被人灌了铅的、注定掷不出某个点数的作弊骰。普鲁塔克在《希腊罗马名人传》里考证过这一层。换句话说,恺撒在说出这句话时,未必是在豪赌。他可能是在说:这个游戏的规则,早在骰子被制造出来时就已经被写死了。我能做的,只有掷出去。
2026年5月的AI编程赛道,骰子同样已经掷下。它是不是灌了铅的,没有人知道。但有一件事是确定的:一旦掷出,捡不回来。
留给每一个参战者的真正难题,不在河对岸。在自己身上。当模型能力趋同、价格归零、基准失灵,当工程师在键盘上越来越快、脑子里越来越空,当AI开始写代码改进AI自己——竞争将退回到那个最古老的层面:信任、克制,以及知道在哪里踩刹车的判断力。
那才是Coding之后,真正的战场。不是谁跑得更快,而是在所有人都刹不住车的时候,谁能证明自己值得被信任。
恺撒最终赢下了内战,却在元老院被刺。有些战争,赢在战场上,输在大势里。卢比孔河只是一个起点。彼岸的黎明,从不保证任何人的抵达。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。







