Token时代的算力竞争：十万卡之前，先让智算基础设施“好用”起来

创业邦·2026-05-20

当算力产出模式向“Token工厂”转型，基建的逻辑正从单一的万卡规模，转向可用性、软件栈成熟度及数据价值释放的深度较量。

算力，作为继热力、电力之后的核心生产力，已升华为驱动数字经济发展的“新基础能源”。作为中国数字经济的高地，长三角地区正致力于构筑具有全球竞争力的算力基础设施与产业生态。2026年5月14日，“「TOKEN工厂」智启未来——2026智算基础设施创新大会”在杭州萧山区隆重举行。本次大会以“TOKEN工厂”为核心抓手，汇聚了科研、政企与产业领军人物，共同探讨国产GPU创新、智算基建互联互通等前沿议题，旨在推动产业资源高效整合，实现合作共赢。

在大会现场，浙银汇金总经理范志敏、云尖信息副总裁唐顺武、之江实验室高效能计算设施中心副主任余辉、超会联CEO巩悦、萧山区数据资源管理局数据总监马彦平围绕“Token重构算力，智算基建前沿探索”展开了深度对话。以下为嘉宾对话实录，由创业邦整理。

范志敏：算力生态不是单打独斗，训练注重算力利用率，推理追求低时延、高并发。请问这种转变是否意味着过去两年建设的万卡液冷集群在推理时代可能成为低效资产？

余辉：我所在的之江实验室是浙江省举全省之力打造的新型研发机构，目前聚焦只做“智能计算”这一件事，而我负责的中心主要负责其中的“南湖计算框架”，包含数个万卡集群的建设与运维。从我们的体感来看，无论是基础模型还是领域模型的训练需求增长依然非常快，工作内容非常饱满。

在国内背景下，优质算力资源，尤其是能拉万张卡做长时间稳定训练的国产算力资源，依然非常稀缺。我认为集群不会成为低效资产，关键在于如何支持高效、低成本的推理服务。在之江的实践中，我们的南湖训练框架已经支持训推一体，并利用调度系统对资源进行灵活切分。我们经常把大任务调度后产生的碎片化资源组织起来，用于数据蒸馏这种对时间不敏感的任务。基于这些措施，之江实验室的算力利用率常年保持90%以上，虽然技术在变，但万卡集群的价值始终在那里。

唐顺武：我认为，评价一个好系统始终离不开“大带宽、低延时、高密度、高可用”。现在的智算中心正走向算、存、网与液冷紧耦合的系统，任何一环变成短板都会妨碍万卡集群的能力。我们与之江实验室合作打造的万卡集群，在三年前就采用了液冷技术，至今依然是行业标杆。在Token经济发展的星辰大海中，我们不仅要单领域竞争，更要走向融合共生的合作模式，通过全栈、全链的协作来降低整体成本并提升可用性。

范志敏：建设万卡集群常会遇到调度、网络、能耗等难题。余主任，之江实验室在攻克这些挑战的过程中，最关键的一次破局点是什么？对同行建设类似的集群有哪些借鉴的经验？

余辉：回顾过去一年，我发现训练性能、利用率和可用率的提升都是缓慢增长的，是靠着一个问题一个问题地解，一点一点磨上去的，很难找到一个戏剧性的瞬间。如果说体感最深的一点，那就是我们对“可用性”的极致追求。

在建设国产集群初期，硬件性能和软硬件适配都不够稳定。为了破局，我们建立了一个深度的可观测系统，并做了一个非常务实的决策：在智算集群边上成立一个“联合实验室”，把GPU厂商和服务器厂商的人都叫到一起，现场办公，核心任务就是“修卡”。到目前为止，我们集群卡返修的次数一共两万多次，频率极高。有了这个实验室，一般的故障一天之内就能解决并快速插回使用。

我给同行的建议是，国内建智算集群，特别是基于国产资源时，一定要高度关注可用性。现在很多集群出于电力成本考虑建在偏远地区，但如果卡坏了修一下要一个星期，对整体效能将是致命的。未来建设集群，除了电力成本，必须从提高可用率的角度考虑地理和运维因素。

范志敏：国产算力生态在同步崛起。从芯片到整机，从“可用”到“好用”的最后一百米在哪里？

唐顺武：我觉得是高可用。我们每个人都是“最后一公里”的一员。在这个过程中，云尖主要做了三件事：首先是服务国内近20家GPU芯片厂商，帮他们完成从芯片到算力卡0-1的设计和1-100的量产，解决了很多点点滴滴的问题；其次是在算、网、存和液冷层面进行产品技术创新；最后是与之江实验室一起，实战打造真正的万卡集群。我体会到，所谓“最后一公里”，本质上就是把前面99公里的问题通过一步步努力全部夯实。

余辉：我们现在离“最后一公里”可能还很远。国产算力从可用到好用要经历四个阶段：建好算力、用好算力、训出高质量的大模型、以及实现基础模型训练与GPU类型解耦、领域模型训练与基础模型解耦。目前现状正处在“用好算力”和“训好模型”中间。现在最让我们头疼的是国产软件栈，资料非常匮乏，工作效率低。目前的解决办法只能是把厂商的人叫到之江，大家聚在一起联合攻关，一边训模型一边解bug。软件栈的成熟度才是目前最大的障碍。

范志敏：唐总，为了提高Token的产出效率，算力基建最近几年有哪些突破？哪些是真突破，哪些是伪需求？

唐顺武：Token的产出效率由算力、网力、存力、液冷和模型能力共同决定。我认为“真突破”在于围绕这些核心维度的系统性创新。随着GPU芯片功耗从400瓦一路攀升到2000瓦以上，液冷技术绝对是未来的必然趋势，再也离不开了。云尖在全栈产品能力上做了很多实实在在的技术创新。比如推出了8U16卡的高密服务器，以及支持400G到800G的高速交换机，这些都是为了契合Token产出对大带宽、低延迟的需求。我们现在的逻辑是，一边学习行业领先者，一边在实战中试错并修复。未来智算中心一定是算、存、网加液冷深度融合的系统，这需要我们从单领域竞争转向融合共生的合作模式。

范志敏：接下来的问题问超会联的CEO巩总。在AI算力规模化部署下，高密度、高带宽的算力互联架构如何破解“Token工厂”带来的网络瓶颈和调度延迟问题？

巩悦：现在算力产出越来越趋向“Token工厂”模式，最大的变化是大家不再只比拼训练能力，而是拼Token产出效率。集群变大的过程中，网络的重要性显著提高。真正卡住效率的不一定是GPU本身，而是GPU之间的互联和调度。尤其在大规模推理场景下，高并发、实时性的请求对网络的要求更高。我们超会联重点在做三件事：把网络带宽做上去，把通信延迟降下来，让集群调度更稳定智能。同时，我们也坚持全栈自研交换机硬件和操作系统，核心目的就是把关键能力掌握在自己手里，确保系统的稳定性、兼容性和安全可控。未来的算力网络不仅要跑得快，还必须跑得稳、跑得安全。

范志敏：马总，在自主可控、安全合规的要求下，如何保证Token生产流转的安全稳定运行？萧山在公共数据、管理、供给、统筹安全等方面有哪些具体举措？

马彦平：数据局是公共数据的管理者，也是社会数据价值释放的推动者。关于自主可控，也就是信创，这是政府侧一定要推的，目前萧山在这方面已经基本完成。自主可控与安全有着紧密联系。从狭义安全看，国产CPU和GPU的漏洞我们的厂商能第一时间知道并打补丁；从宏观安全看，这是供应链的安全，避免被“卡脖子”或者买到被阉割功能的硬件。

在数据价值释放上，萧山主要做了三点：第一，推动数据要素价值释放。在全省刚公布的109个行业高质量数据集中，萧山区占了11个，成绩非常不错。我们还在遴选自有的高质量数据集，入选项目会有最高200万的资金奖励，扶持力度很大。第二，出台专项补贴政策和“数据券”，涵盖数据流通和使用环节，让数据企业更有获得感。第三，促进政企数据融合。我们打造了一个“公共数据试数场”，允许企业在安全管控下，带数据进场与公共数据做融合验证，确保“原始数据不出域，数据可用不可见”，筑牢安全底线。

范志敏：最后关于未来的趋势，接下来的3-5年算力基建可能会有哪些重要突破？

巩悦：我预判会有三个明显变化：一是重心将从训练转向推理，大家会更关注Token生产的速度、成本和响应稳定性；二是网络互联的地位会进一步抬升，高带宽、低时延、无损网络将成为标配；三是绿色低碳和算网融合，包括液冷和跨区域协同将越来越普及。

马彦平：我们局未来打算做两件事：第一，进一步提升公共数据供给能力。我们会尝试拓展除“数据开放”和“授权运营”外的第三、四种渠道，简化赋能机制，让企业更容易在合规前提下使用数据。第二，迭代升级产业政策和“数据券”，力争为“模数共振”行动添砖加瓦。

唐顺武：我理解的未来趋势是三个关键词。一是“打通”，即从GPU芯片到算力卡、服务器、智算中心再到模型应用的全链路打通。二是“液冷”，随着单卡功耗攀升至2000W以上，液冷是必选项。三是“开放统一架构”，目前国内架构百花齐放导致研发成本高、开发周期长，未来必然会走向统一开放的架构。云尖也愿意在这一过程中贡献自己的力量。

余辉：未来是规模的竞争。目前国内万卡集群仅有十几个，而美国已有数个十万卡集群。未来3-5年将是国内建设十万卡以上超大规模集群的窗口期。这涉及超节点、网络协议、标准等一系列新技术，需要我们业内团结一致，把这件事干好。