这家初创企业,如何在英伟达的“统制”下撕开一个口子?

2022-06-16
用革命性的技术赶超巨头

编者按:本文来自快鲤鱼(ID:akuailiyu),作者:曹玉蓓,创业邦经授权转载

AI大算力芯片是当前创业者最聚焦的领域之一,算法模型的发展、芯片架构的迭代、工艺进程的演进以及各项产业政策的出台,都在告诉世界这个领域蕴藏着巨大的产业能量和革新机会。

1988年,熊大鹏在华中科技大学当老师,为了能够去美国读博,他必须申请到目标学校的全额奖学金。当时中美之间的技术交流有一道巨大的鸿沟,即便只是跨越地理阻碍,飞到了旧金山上空,也足够让他觉得振奋。

在德克萨斯大学奥斯汀分校的那几年,是他芯片设计生涯的开端,为后来能率先抓住全数字存算一体架构的实现路径埋下了伏笔。

严格来说,芯片最开始不是SoC(片上系统级芯片),而是主要用于电路设计板的独立功能芯片和器件。随着密度需求越来越大,行业开始慢慢升级,将电路板上的电路、器件和功能芯片,集成和微缩成专用的SoC系统芯片。

在美国的这段学习期间,熊大鹏开始从之前的电路板设计进入到芯片设计领域,见证了从最原始的电路板设计、功能芯片设计,到现在大算力SoC芯片的整个行业发展进程。

在美国工作近10年后,熊大鹏决定回国创业。那时的项目是一些偏简单的鼠标芯片、通讯芯片以及GPGPU、CGRA、DPU等不同架构AI芯片,近几年国内半导体芯片更新速度加快,行业格局每隔几年就会产生剧变。而这一次,他的“对手”是经典的冯·诺依曼架构。

图片

亿铸科技创始人兼CEO 熊大鹏


三道墙

在AI大算力芯片领域,能效比的提升极度依赖工艺制程的演进,各类算法的应用部署高度依赖既有的GPU的软件生态。

而目前在这两个维度上,英伟达兼具压倒性优势,在AI大算力公开市场的占有率近90%。

抛开芯片国产替代这一层意义,一家独大的产业格局对于众多下游应用场景客户来说,是一座想离开却无法离开的城池,下游应用客户的供应链选择和议价权受限,彼此间的业务差距难以拉开。而对众多在AI算力芯片赛道的创业者来说则是一片充满挑战的蓝海。

作为向蓝海挺进的一员,熊大鹏清楚地知道,沿英伟达的技术发展路径继续努力,理论上是有可能与其比肩的。但GPU似乎已不是AI大算力发展的技术架构路径,而所谓“充沛的时间和资源”,对于一家初创企业来说至少是10年的时间成本和数以万计的技术人才投入。

盘了一遍不同的计算机架构后,他认为虽然当前的技术方案已将AI计算推进到了产业化和应用阶段,但都在冯·诺依曼架构的范畴,要追求更高的性能,摆在眼前的三个问题亟待解决:能耗墙、存储墙、编译墙

首先是能耗墙问题。占AI大算力芯片高地的英伟达GPU芯片,工艺制程从之前的7nm提升到了4nm,单位面积性能随之提升约2倍左右,但能效比可能只提升不到一倍;同时还要做巨大的软件调优投入,以实现对各主流算法的适配和部署。

考虑到工艺本身已接近物理极限,通过提升工艺去拔高性能和能效比的方式已渐趋饱和。且当前AI对算力的需求每三到四个月就要往上翻一倍,芯片开发动辄数亿美金,投入巨大。

在成本、能耗以及工艺制程演进滞缓等多重压力下,能耗墙越来越成为AI向更多应用场景普及的技术瓶颈之一。

但能耗墙问题只是表象,更深层次的原因在于导致能耗墙问题出现的存储墙。熊大鹏告诉创业邦,存储墙的问题是AI芯片设计工程师面临的最具挑战的问题之一。

原因在于这些芯片目前采用的均是从1946年被沿用至今的冯·诺依曼架构,其架构原理是将计算与存储分离。早期,冯·诺依曼架构是很好的存在,算是算、存是存,存算分离的架构,让指令集ISO设计和CPU设计变得更简洁,但AI大量数据所需要的并行计算成了它继续维持“完美架构”的“绊脚石”。

然而一次并行处理需要同时启动几千个计算核,几千组数据全部到位后才能开始并行计算。在存算分离的架构下,数据需要在计算和存储单元之间不停地搬运,直至所有数据全部被搬运到位,才开始计算。

所以在大规模的AI数据计算中,只要有一个数据被卡住,就会导致成千上万个计算核同时怠工,产生大量计算之外的能耗。据统计,用于数据搬运的能耗已占整体能耗的70%-90%,而数据搬运效率决定了计算效率。

为提升数据搬运的效率和计算能效比,业内将存储设计分成一级缓存、二级缓存、三级缓存等,通过分层级管理的复杂架构来优化数据的卡壳问题,让数据离计算单元更近、带宽更大、让必须搬运的数据量更少。

但这种思路使当前的存储架构变得更复杂,增加了数据存算资源分配、数据搬运和管理的复杂性,编译难度骤增, 导致第三道墙——编译墙(生态墙)出现。

由于存储墙内这些数据是实时动态、流向未知的,且是多级动态管理的,可能被卡住的地方也是未知的,必须依赖各类工具来手动调优解决数据卡顿的问题。

但在实际操作中,局部的调优往往会影响其他地方的数据流动,问题一生二、二生三,彼此掣肘,常常需要几十个人花几个月甚至更久的时间才能将数据资源的调用路径调整到相对高效的状态。

有痛点的地方,就有机遇,“如果能解决别人解决不了的问题,那么问题反而成了最大的竞争护城河所在。”熊大鹏说道,英伟达就是通过上万软件工程师基于自有通用并行计算架构CUDA(Compute Unified Device Architecture)开展了大量手动和自动调优工作,历经十几年的积累,为自己构建了一道很高很厚的软件生态墙。

后来者如果沿着英伟达的技术路线设计AI大算力芯片,除了需要在芯片设计及工艺制程上与其竞争之外,更需要在软件生态建设上做大量投入和积累,而这对于创业者来说是一座必须翻越的“珠穆朗玛”。


用革命性的技术赶超巨头

同样,要在AI大算力赛道追赶国际芯片巨头,除了正面翻越“珠穆朗玛”这条路外,还可以找到另一条从A到B的路。

存算一体是当下被业界关注的全新架构之一。随着新型忆阻器ReRAM(即RRAM)的成熟,将其应用于AI算力芯片这一思路越来越被业界认为是破局当前技术僵局的最佳路径之一。

熊大鹏在2017年接触到存算一体的计算架构,并越来越坚信这是一条真正能打破冯·诺依曼架构的革命性技术路线。

2021年10月,熊大鹏在上海成立了亿铸科技,目前已经是一家基于ReRAM设计和落地全数字存算一体AI大算力芯片的行业领头羊企业。亿铸拥有一支顶级的研发、工程和顾问团队,致力于将ReRAM这种忆阻器以全数字的技术路线应用于存算一体AI大算力芯片领域。

“存算一体”,顾名思义,存储和计算不再隔开,存储墙被彻底消灭,大大减少了数据搬运量。

在ReRAM存算一体的架构下,只需要把诸如图像、语音等数据输入芯片,芯片根据已存储的计算参数进行运算,输出结果。好比人的眼睛,看到图像后输入到大脑,大脑做“存算一体”的并行处理,输出视觉判断结果。

数据调度和传输变得更加简单,更容易通过编译器实现执行程序自动优化,这对扭转高度依赖既有软件生态的现状提供了质的突破。

此外,ReRAM本身的计算单元可以通过阻变器件的存储记忆特性,利用基础物理定律和原理完成海量AI计算。所以ReRAM存算一体架构芯片的能效比可以做到传统冯·诺依曼架构芯片的几十倍甚至百倍以上。

即便目前是存算一体技术落地的起始阶段,能效比已经可以在传统架构能效比基础之上再提升10倍,未来潜力巨大。所以,把ReRAM存算一体架构的AI大算力芯片比作AI算力界的一匹“黑马”不为过。

目前,亿铸第一代算力芯片采用的工艺为28nm,尽管和当前主流的AI芯片存在两、三代的工艺差(12nm和7nm),但亿铸第一代算力板卡的能效比仍然可以实现目前主流算力板卡的10倍以上。

亿铸通过创新的技术路线,实现了AI大算力芯片能效比的数量级提升。支持客户在不增加物理空间、能耗的前提下,提升了算力密度,同时也符合了国家号召的优化能耗结构、支持双碳目标达成的政策指向。

2021年底,亿铸科技完成过亿元天使轮融资,该轮投资由中科创星、联想之星和汇芯投资(国家5G创新中心)联合领投。


选择“模拟计算”,还是“全数字计算”?

要知道,亿铸并不是第一家投身于存算一体芯片的公司,国内外已经有几家同样做存算一体架构芯片的公司。

尽管如此,赛道中,各家由于选择的存储介质不同,实现的技术方式不同,目标市场自然就拉开了差异。

当前存算一体赛道中,初创公司主要集中于低精度、小算力的应用场景,这是由他们所选择的忆阻器特点和模拟计算决定的。

除了模拟计算这一方式外,还有没有其他可以将存算一体计算架构成功应用于AI大算力芯片的方式呢?

对这一问题,亿铸提出了切实可行的解决方案——全数字化设计,满足该领域高精度、大算力、高能效比的要求。由于亿铸选择的存储介质是ReRAM,其本身特性非常适合全数字化设计的要求。

亿铸还拥有从ReRAM器件、全数字存算一体计算架构、AI芯片设计、编译器、算子库、应用开发平台等全链条的人才储备,为实现全数字化设计奠定了坚实的团队基础。

因此,亿铸基于对AI大算力赛道现有痛点的深度解析,巧妙地将ReRAM这种存储介质的属性优势和全数字化的路径优势进行深度整合,切实将存算一体这一先进的计算架构在AI大算力芯片赛道落地,向业界提供大算力、高精度、高能效比、易部署的AI大算力芯片产品。

此外,亿铸科技已和国内先进的ReRAM IP及产能供应商昕原半导体达成紧密合作,实现双方共研联调,确保亿铸ReRAM全数字存算一体AI大算力芯片的成功量产。


未来,如何去赢?

毋庸置疑,亿铸ReRAM全数字存算一体大算力芯片的出现将给业界带来全新的AI大算力解决方案,而它算力大、精度高、能效比高、部署容易的特点也将会对AI大算力的既有技术格局带来一定的冲击。

但是熊大鹏也清醒地认识到,在技术的汪洋大海里,没有“放之四海皆是最佳”的解决方案,只有满足不同领域、不同特点和要求的、更具比较优势的解决方案,不同的技术路径会在各自的演进过程中找到与自己最匹配的应用场景。

在AI大算力这一赛道,他认为亿铸的ReRAM全数字存算一体大算力芯片是解决该赛道存储墙、能耗墙、编译墙(生态墙)等问题的最优路径。

面对未来可能进入这一技术赛道的其他参与者,熊大鹏表示,AI计算是一个非常巨大的市场,未来的发展更是不可估量,因此更多的资源进入这个赛道会促进存算一体计算生态的进一步发展。

在ReRAM全数字存算一体芯片这一创新性、原创新极高的研发征途中,一边是海阔天空,一边是荆棘丛生,但熊大鹏表示,创业需要几个核心要素:一个有巨大社会价值和商业价值的目标、一条清晰明确的实现路径、一支团结专业的奋斗团队、一群志同道合彼此合作的产业伙伴。如果这些都具备了,那么创业者只要手握镰刀、咬定青山不放松,披荆斩棘就是到达终点的最佳路径。

本文作者:曹玉蓓,关注商业航天、固态电池、创新科技领域。一切采访合作需求欢迎联系,微信/手机:17600328980,请注明来意。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。