从现在开始,得像研究DeepSeek一样严肃研究Kimi

开放的态度、短小精悍的团队、锐意进取的精神。

编者按:本文来自微信公众号 “互联网怪盗团”(ID:TMTphantom),作者:怪盗团团长裴培,创业邦经授权转载。

我研究过世界上绝大多数的主流AI大模型公司,试用过它们的产品。我是ChatGPT, Gemini以及Grok的长期付费用户,也经常使用国产的DeepSeek, Qwen, 混元和豆包。虽然我日常较少编程或使用Agent,但是对于文本会话以及图片、视频等多模态功能,我可是不折不扣的重度用户,经常在新版本模型发布之后一口气聊到大半夜。至于编程与应用开发,我在朋友圈密切关注几位程序员朋友的分享,对于Claude Gode和ChatGPT Codex之类的工具应该算不上文盲。

直到上个星期,我还对朋友说:“对于AI行业,我应该没有错过什么值得深入了解的东西吧。”然而接下来的几天,我先是在社交媒体,然后在自己加入的微信群,注意到了一件出乎意料的事情——Kimi的冉冉升起(尽管以前的地位就不低了)。3月16日和20日,马斯克两次赞扬了Kimi,第一次是为了一篇关于大模型注意力残差(Attention Residuals)技术的论文,;第二次则是为了Cursor发布的新模型被证实是基于Kimi K2.5微调的成果。尤其是第二件事情,影响巨大,震动了全球的AI圈子,我们不妨先把此事的来龙去脉回顾一下:

  • Cursor是全球最流行的AI编程IDE,没有之一。不过它主要是一个应用界面和工具箱,通过接入第三方大模型完成任务,例如Claude.

  • 今年3月初,Cursor发布了原生编程模型Composer 2,效果极佳,推理成本极低,立即引发了高度关注;但是一开始,Cursor并未提及外部合作伙伴,很多人都以为是完全自研。

  • 接下来两个星期,很多开发者发现,Composer 2的API和模型ID含有Kimi K2.5的痕迹,很可能是基于K2.5开发的;互联网口碑迅速反转,媒体转而指责Cursor抄袭Kimi。

  • 3月20日,Cursor创始人道歉并承认Composer 2是基于Kimi K2.5二次开发的结果,感谢了Kimi的贡献;Kimi也大度的表示该模型通过合作伙伴获得了授权。至此,这一风波基本圆满解决。

说实话,这件事情给我带来的震动很大。此前我一直认为,Claude Opus 4.6和GPT-5.4是全球最擅长编程的大模型;在国内,我对DeepSeek的新版本寄予厚望,因为梁文锋此前发表的论文明显很关注编程方向。我对Kimi以及月之暗面这家公司的认知,主要还停留在当年“擅长超长文本分析”的阶段。我的那些资深程序员朋友比我还要震动——当Kimi K2.5成为全世界最流行编程工具的最受关注的“原生大模型”的基础时,稍有技术常识的人就该明白其背后的分量。

Kimi K2.5的竞争力,不仅在于其推理能力强、成本低,还在于它是开源的。因此它成为了Cursor二次开发的基础,还驱动了Cloudflare旗下新业务Workers AI的上线。在公告中,Cloudflare特别强调了K2.5的成本优势,称其为“性价比甜区”(Price-Performance Sweet Spot):“我们提供Kimi K2.5服务,一开始是个试验,但是当我们看到它的表现以及性价比之后,这个试验马上就变得十分重要了。”

做个背景解释:Workers AI是一个大模型聚合平台,旨在为企业和个人客户提供统一API,客户不必拥有自己的硬件算力,就能选择不同的大模型完成任务。Workers AI接入的主要是开源模型,包括Meta的LLaMA、阿里的Qwen、谷歌的Gemma以及DeepSeek,等等。然而,直到不久前,它提供的模型几乎全是“小版本”,参数规模从几十亿到一两百亿,一般无法承担深度推理、长文本以及高强度的Agent工作流任务。Kimi K2.5是它接入的第一个大规模(总参数1万亿)前沿模型,从现在开始,它可以骄傲地宣称:“我们能帮助客户完成各种复杂的高强度任务啦!”

这个世界上,有的是能力强、跑分高的大模型,但它们往往不具备推理成本优势;具备成本优势的,往往又不开源。此时此刻,我们遗憾地看到,硅谷的那些最先进的大模型生态,基本建立在闭源基础上:

  • OpenAI的名字就代表着“开源”,但是自从GPT-3开始,前沿大模型就不再开源。2025年,才羞答答地发布了两个GPT-OSS开源模型,显然无法代表其最高水平。

  • 谷歌在2021年之前也秉承开源路线,但是目前的旗舰大模型Gemini从不开源,只有参数规模明显较小的Gemma大模型是开源的。

  • Anthropic从成立之日起就没有发布过任何开源模型,Claude系列是完全闭源的。

  • Grok最初的几个版本曾经开源,但是自从Grok 3以来就不再开源。在连续两次点赞Kimi之后,不知道马斯克会不会重新考虑加入开源生态?

放眼全球,对开源生态最执着、贡献最大的,早已变成了中国厂商。DeepSeek, Kimi, Qwen……各有擅长的领域,都在某个时期成为过人类最前沿的开源模型。我觉得Kimi尤其难得,其融资、估值和消耗的资源只有OpenAI等硅谷大厂的2%左右,而且也远远小于国内互联网大厂的大模型部门。用这么少的资源,这么迅速的开拓AI基础研发的边疆,并毫不吝啬地将前沿成果开源,不禁让我想起了很多很多年以前的OpenAI。

除了中国之外,开源生态的旗手,基本仅剩LLaMA和Mistral了。LLaMA 1-3都是全球领先的开源模型,为生成式AI技术的传播做出了不可磨灭的贡献,奇怪的是LLaMA-4水平远远低于预期,扎克伯格若想重新接过火炬,恐怕得付出更多的努力。Mistral是法国乃至整个欧洲的独苗,成立之初仅以几十人的团队规模就做出了当时世界上“第三先进”的大模型(前两个是GPT和Claude),但是2024年以后其发展速度明显放缓,从基础模型的技术水平看,已经掉入了第二梯队。这其实是AI创业公司的常态,毕竟谁都无法保证在资源有限的情况下一直保持在潮流前列。所以,我反而更加佩服月之暗面——从2024年初因为长文本功能而走红,到现在以Kimi K2.5震惊世界,事实证明它绝不是昙花一现。

附带说一句,Mistral的技术进步放缓,并没有妨碍它在2025年9月完成估值140亿美元的新一轮融资;微软、Salesforce以及ASML(没错,就是荷兰那家光刻机巨头)都是它的重要股东。看到这一幕,你还觉得Kimi的180亿美元估值太高了吗?要知道,短短十几天前,马斯克的xAI刚刚以高达2500亿美元的估值与SpaceX完成了合并。就算我是Grok的深度用户,面对这个估值水平也得吐舌头。马斯克描绘的把数据中心发射到太空中的宏大愿景,让我深感激动;不过我得公允地说,Grok离世界最前沿水平还是略逊一筹。

X平台(原名推特)的著名AI博主、被诸多硅谷大佬关注的Tuki (TukiFromKL)说得好:“两家中国实验室的旗舰模型(注:DeepSeek和Kimi)都开源了,都用更少的资源做了更多的事情,挑战美国公司收费数十亿美元的产品。AI竞赛不再是美国vs中国,而是闭源vs开源,而开源正在迅速跟上。”

Tuki的这段评论或许有点武断,不过我赞成它的精神:在历次计算机技术革命中,开源生态都发挥了举足轻重的作用,AI革命也不例外。硅谷巨头仍然掌握着可观的技术和资源优势,但是拒绝拥抱开源生态只会让路子越走越窄。一个开源的、低成本的、持续更新的大模型,对应用层的意义怎么估计都不过分。就拿Kimi K2.5来说,Cursor用它做出了强大的Composer 2, Workers AI用它迈出了提供前沿大模型服务的第一步,我相信还有更多的应用商正在琢磨如何最大限度地利用它。这样的技术进步会让全人类受益,形成基础研发层与应用层互相促进的良性循环。

或许会有人担忧:“前沿技术开源了,那开发商怎么赚钱呢?”事实上这是最不需要担心的问题。我们不妨看看全球最大的开源软件生态——Linux,它从来不曾闭源,但是其生态系统每年创造着200-300亿美元的收入,近年来还呈现攀升的态势。这个数字还没有包括从Linux基础上生长出来的Android, 后者让智能手机真正走进了千家万户,谷歌在尽力维持开源社区的同时,成功地从附加服务上赚到了很多钱。

生成式AI对人类社会的影响才走出了第一步。所有人最应该关心的话题是如何尽快把蛋糕做大、把门槛做低,AI技术的普惠效应越强,AI基础模型及应用开发商的地位反而会越稳固。在这方面,以DeepSeek、Kimi为代表的中国厂商,反而比很多硅谷巨头想的更清楚一点。我想这就是杨植麟成为在今年英伟达GTC上面唯一受邀演讲的独立大模型公司CEO的原因:老黄的眼光十分精准,一再证明了自己能在纷繁复杂的竞争格局中,看清真正有竞争力的路线。

我迫不及待想看到更多像DeepSeek和Kimi这样的AI创业公司:开放的态度、短小精悍的团队、锐意进取的精神;它们应该与大厂形成你追我赶的长期竞争格局。在这个过程中,谁能获胜、谁受益最大,反而成了不太重要的事情,因为无论怎样,最终受益的都是全人类。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅