如果在两年前问一家大模型公司最需要什么?答案是“有没有卡”。但如果今天再问同样的问题,答案也许会变成“好不好用”。

算力通胀之下
都用不起了
“我们正在制造大量的垃圾算力。”
一位负责大模型训练集群的架构师曾这样抱怨。他的焦虑并不是没有风声。过去十年是算力野蛮增长的十年,规模的快速扩张确实带来了阶段性的产业繁荣。但繁荣背后,是难以忽视的效率困局。
为了追赶GPT-4乃至GPT-5的能力,国内企业陷入了一场疯狂的参数竞赛。数以万计的GPU被高度集成化塞进数据中心,它们日夜轰鸣,但产出的智能效益却并未如预期般线性增长。
这是一种典型的“算力通胀”。行业习惯用芯片的理论峰值(Peak Performance)来衡量价值,但在现实的复杂的训练任务中,这些昂贵的芯片往往“有力使不出”。
数据显示,在许多大规模训练集群中,算力的有效利用率(MFU)仅能维持在40%左右,而在推理场景下,大量的算力更是处于闲置状态,利用率甚至不足20%。
算法迭代与硬件僵化之间的错位也在加剧这种浪费,模型架构每六个月就发生一次巨变,从Transformer到MoE,再到各种稀疏化注意力机制,而硬件研发周期长达两年以上。
大量针对上一代模型优化的专用芯片,在交付的那一刻即面临淘汰。这种“刻舟求剑”式的硬件设计模式,让原本就昂贵的算力折旧变得更加迅速。
在上述背景下,天数智芯此次发布的战略,似乎是有意在回答这个行业痛点。他们不再单纯强调单一芯片的峰值参数,而是开始谈论“高质量算力”。

寻找算力的“有效汇率”
什么是“高质量算力”?天数智芯对此的定义是:高效率、可预期、可持续。
在1月26日的发布会上,AI与加速计算技术负责人单天逸展示了一张略显复杂的架构路线图。与以往发布会只盯着TFLOPS(每秒浮点运算次数)数值不同,这次他们花了大量篇幅讲“利用率”和“兼容性”。

天数智芯给出的架构路线图:2025年的天数天枢架构,超越英伟达Hopper,重点解决多精度混合训练的效率;2026年天数天璇、天数天玑实现对标和超越英伟达Blackwell;而计划于2027年面世的天数天权,则将矛头直指英伟达下一代旗舰架构Rubin。
这不是一纸空谈,而是现实中已经部分实现的作战计划:2025年推出的天数天枢架构,通过TPC BroadCast(计算组广播机制)Instruction Co-Exec(多指令并行处理系统)Dynamic Warp Scheduling(动态线程组调度系统)等自研核心技术,调用了每一比特算力,实现算力效率较行业平均提升60%,在DeepSeek V3场景性能比英伟达Hopper架构高20%。

同样的“精打细算”也延伸到了对存储成本的控制上。面对DDR存储价格高企给AI推理环节带来的显著压力,天数智芯给出了一套“软硬兼施”的解法:底层依靠kv cache(关键值缓存)量化与无损反量化技术,将模型推理的实际内存占用直接削减50%以上,从根本上降低对昂贵存储资源的依赖;上层则利用自研的IX-SIMU软件系统,像精算师一样实时追踪存储市场价格,为客户推算出性价比最高的硬件组合。在波动的市场中锁定“性能与成本最优解”的能力,是其技术护城河的另一块拼图。

把云端折叠进方寸之间
随着物理A的“ChatGPT 时刻”到来,这一能实现物理世界“感知-推理-行动”闭环的技术,成为AI突破数字边界的新方向,推动智能从虚拟走向现实。
这次发布会上,最让现场观众感到意外的,不是巨大的服务器机柜,而是一系列可以塞进衣服口袋的小盒子。
天数智芯副总裁郭为从兜里掏出了那块名为“彤央TY1000”的算力模组。这个仅有手掌大小的模块,采用了699pin接口,却拥有媲美云端级别的大算力。

尺寸的缩小之外,算力形态的下沉是重中之重。彤央系列包括了集成ARM v9 12核CPU的TY1100,以及被戏称为“小钢炮”的TY1100_NX,还有算力高达300TOPS的TY1200。这些名字听起来有些枯燥的硬件,实则承载了国产GPU突围的另一条路径:走出恒温恒湿的数据中心,进入物理世界。
天数智芯给出的对比数据颇具一较高下的火药味:在近期火爆的DeepSeek 32B大语言模型以及计算机视觉场景下,彤央TY1000的实测性能全面优于英伟达的AGX Orin。特别是在自然语言处理上,它让边缘设备不拘泥于执行预设指令,变成了能理解复杂逻辑的智能体。
在过去,具身智能(EmbodiedAI)和工业机器人往往受限于端侧算力的贫乏,只能执行简单的预设指令。而现在,随着端侧算力达到300TOPS级别,大模型开始真正有机会住进机器人的身体里。从智慧门店到车路协同,从轨道交通到工业制造,算力的触角正在无限延伸。

算力困局:
卡越堆越多,钱越烧越快
对于互联网大厂和创业公司来说,每一秒钟的生成都在燃烧经费。“AI应用现在已经普及了,Chatbot、文生图大家每天都在用。但行业真正的瓶颈只有一个:Token成本太高。”天数智芯副总裁邹翾一针见血地指出了问题的核心。
邹翾分享的一组数据引起了在场的全体注意。在某头部互联网客户的Chatbot场景中,天数智芯的单机性能比国际方案提升了一倍以上,而每Token的成本下降了二分之一。
这意味着,同样的预算,企业可以服务两倍的用户,或者让模型思考得更久一点。
除了成本,另一个阻碍国产GPU普及的拦路虎是“迁移门槛”。长久以来,CUDA生态构建的高墙让无数开发者望而却步。天数智芯没有选择硬碰硬地去推翻现有生态,而是选择了“兼容”与“好用”。通过提供与xLLM等主流框架兼容的接口,客户只需花费其他产品1/3的精力即可完成开发调优。
“好用”的哲学也延伸到了科研领域。从基因分析到海洋地质勘探,科学家们不再需要成为硬件工程师。天数智芯帮助研究人员从繁复的底层调试中解放出来,专注于科学发现本身。
在金融领域,研报生成效率提升70%;在医疗领域,结构化病历生成缩短至30秒。这些数字的背后,是算力真正转化为生产力的过程。
2026年,对于中国GPU行业注定是不平凡的一年。
随着天数智芯在香港鸣锣,国产通用GPU四小龙已集齐IPO。但上市从来不是终点,而是更为残酷的淘汰赛的起点。
资本市场不会永远为“国产替代”的情怀买单,也不会一直容忍巨额的研发亏损。投资人最终关心的,是有多少客户真的把业务跑在了芯片上,商业化的成长是否可以持续。
天数智芯交出的答卷是300多家行业客户与1000多次实际部署,是数千卡集群稳定运行超1000天,是瑞幸数千家门店的智能运营、太平金科信贷风控的提效,以及视源科技打造的数万间智慧课堂,这些真实的业务负载,共同构成了招股书中的底色。

而在算力生态的主动建设上,天数联手了多家硬件厂商和解决方案提供商,目标是让千行百业以更高性能、更便捷方式使用AI,实现算力普惠。
在这场漫长的算力马拉松中,领跑者或许会换了一波又一波。但可以确定的是,那个靠堆砌参数、讲故事就能融资的草莽时代,已经彻底结束了。接下来的竞争,将属于那些真正能让客户好用的企业。







