A16Z 谈真实算力成本|AI 初创公司将 80% 的钱投入到算力中,这真的可持续么?

2023-10-12
A16Z 的投资人 Stephanie Smith 与 Guido Appenzeller 就当前 AI 创投生态进行了一次盘点,他们讨论了 AI 算力的成本以及市场的可持续性。

编者按:本文来自微信公众号 有新Newin(ID:NewinData),作者: 有新,创业邦经授权转载。

近期,A16Z 的投资人 Stephanie Smith 与 Guido Appenzeller 就当前 AI 创投生态进行了一次盘点,他们讨论了 AI 算力的成本以及市场的可持续性,内容不限于 LLM 培训成本、数据限制、模型规模、训练数据量以及硬件发展等话题,这次对谈的完整内容如下:

Stephanie Smith:

Guido 在最新文章中提到了 AI 计算成本的高昂,指出对计算资源的访问已成为 AI 公司成功的决定性因素,这不仅适用于构建最大型模型的最大型公司;实际上,许多公司将其筹集的总资本的 80% 以上用于计算资源,自然而然地引出了一个问题,这是否真的可持续?

Guido Appenzeller:

你在早期阶段构建的核心技术朝着更完整的产品提供方向发展,对各种功能和实施进行了更多的检查,如果你的应用 toB,还要处理所有管理方面的事务,所以可能会有更多的非 AI 、传统软件开发正在进行,你可能还需要支付更多的员工工资。最终我预计,作为百分比,随着时间的推移会下降,作为绝对金额,在一段时间内会上升,因为这个 AI 繁荣还处于初期阶段。

Stephanie Smith:

AI 繁荣才刚刚开始,在第二部分中,我们讨论了计算需求在短期内不太可能减少,而且当涉及到成本时,拥有或租用基础设施的决策对公司的底线有非常重要的影响,但在成本方面还有其他考虑因素,批处理大小、学习率以及训练过程的持续时间都会影响最终的价格标签。

Guido Appenzeller:

训练一个模型需要多少钱?这取决于许多因素。目前的好消息是,我们可以在某种程度上简化这个问题,因为今天使用的绝大多数模型都是 Transformer 模型。Transformer 架构是 AI 的一个重大突破,它们被证明非常灵活,它们更容易训练,因为它们相对于以前的模型更好地进行了并行处理。

因此,在一个 Transformer 中,你可以将推理时间近似为参数数量的两倍的浮点运算,而训练时间则是参数数量的大约 6 倍,如果你以 GPT-3 为例,这是一个庞大的模型,它有 1750 亿个参数,那么你需要 3500 亿个浮点运算来进行一次推理;基于这一点,你可以大致计算出你需要多少计算能力,它将如何扩展,你应该如何定价,最终它将花费多少。

这还可以为模型训练提供一个关于训练时间的想法,以及你的 AI 加速器每秒浮点运算的能力。你可以在理论上计算训练模型所需的操作次数。

实际上,数学问题更加复杂,因为有一些加速方法。也许你可以使用降低的精度来进行训练,但在这些卡上实现 100% 利用率也非常困难;如果你天真地实现它,可能只能达到 10% 的利用率,但通过一些工作,你可能可以达到几十个百分点,这为你提供了关于训练和推理需要多少计算能力的粗略估计,但最终你可能会在做出最终决策之前对此进行测试,确保你的假设成立。

Stephanie Smith:

如果所有这些数字让你感到困惑,没关系。我们将通过一个非常具体的示例来解释。GPT-3 有约 1750 亿个参数,下面是 Gtuido 关于训练模型和最终推理所需计算的要求。

Guido Appenzeller:

如果我们非常天真地进行数学计算,让我们从训练开始,我们知道它是在多少 token 上进行训练的,我们知道模型有多少参数。所以我们可以进行粗略的计算,最终你得到大约 3x10^23 次浮点运算。这是一个完全疯狂的数字,有 23 位数字,非常难以描述。

实际上,人类实际承担了非常少这种复杂度的计算问题,这是一个巨大的工程。然后,你可以考虑一下,让我们以 A100 为例,这是最常用的显卡之一。我们知道每秒它可以执行多少浮点运算。

我们可以将这些数据相除,这将为我们提供一个数量级的估计,告诉我们需要多长时间。然后我们知道这些显卡的成本,租用 A100 的成本大约在 1~4 美元之间,这取决于租赁来源,那么你最后得到的大致成本是约 50 万美元,这是根据这个非常天真的分析。

现在有一些因素需要考虑,我们没有考虑到优化,我们也没有考虑到由于内存带宽限制和网络限制,你可能无法以全容量运行。最后但并非最不重要的,你可能需要多次运行才能得到正确的结果,可能需要一些测试运行,它们可能不会是完全运行等等。

这让你明白,训练这些 LLM 今天不是 10 万美元的事情,实际上,根据我们在行业中所见,它实际上可能要花费数百万美元。

这是因为你需要保留计算能力。如果我可以在接下来的 2 个月内获得所有我的显卡,它可能只需要花费我 100 万美元,但问题是他们需要两年的预定,因此实际成本高出 12 倍,这基本上为我的培训成本增加了一个 0。

Stephanie Smith:

是的,这与推理相比要便宜得多。

Guido Appenzeller:

基本上,对于现代文本模型的训练集来说,训练集大约有 1 万亿个 token 。如果运行推理,每个单词都作为一个 token 输出,相对于训练部分要快大约 1 万亿倍左右,如果你计算一个 LLM 的成本,实际上只会增加几分钱,比如 100% 或几分之一,大约在这个范围内。

再次强调,如果我们只是天真地看待这个问题,对于推理,通常问题在于你必须提供峰值容量。如果每个人在星期一上午 9 点使用你的模型,那么你仍须支付星期六午夜的费用,而那时没有人使用,这会大大增加成本,特别是对于一些特定的图像模型,对于推理,你可以使用成本更低的显卡,因为模型足够小,可以在消费者显卡的服务器版本上运行。这可以节省大量成本。

Stephanie Smith:

正如我们在第一部分中讨论的那样,你不能仅仅通过组装一堆性能较差的芯片来弥补这些低效率,至少对于模型训练来说是这样。

Guido Appenzeller:

你需要一些非常复杂的软件,因为在这些卡之间分配数据的开销可能会超过卡所能提供的节省。

Stephanie Smith:

另一方面,对于推理来说。

Guido Appenzeller:

对于推理,通常可以在一张卡上完成。所以如果你拿 Stable Diffusion 这样的东西,这是一个非常受欢迎的图像生成模型,它可以在 MacBook 上运行,因为它有足够的内存和计算能力,所以你可以在本地生成图像,所以你可以在相对便宜的消费者显卡上运行它,而不必使用 A100 来进行推理。

Stephanie Smith:

当我们谈论模型的训练时,显然计算量远远超过推理。我们已经谈论过的另一点是,通常情况下,更多的计算,不一定总是,但通常情况下会产生更好的模型。这最终是否意味着,这些因素都导致了资本丰富的老牌企业赢得这场竞争?或者你如何看待计算资本与今天的技术之间的关系?

Guido Appenzeller:

这是一个价值百万甚至可能价值万亿美元的问题。首先,训练这些模型是昂贵的,例如,我们还没有看到真正好的开源 LLM ,我相信其中一部分原因是训练这些模型成本真的很高,有很多热心人想做这个,但你需要找到几百万或数千万美元的计算能力来完成它,这使得事情变得更加困难。这意味着你需要为这样的事情投入相当大的努力。

总的来说,培训这些模型的成本似乎在下降,部分原因是因为我们似乎受到数据限制。事实证明,模型的规模与模型的最佳训练数据量之间存在对应关系,拥有一个 LLM 但数据非常少对你毫无益处,或者拥有大量数据但使用小型模型同样也毫无益处,你需要决定你的大脑的大小大致对应于你在大学受教育的时长,我认为这并不奏效,这意味着因为今天一些大型模型已经在某个领域中利用了相当大比例的人类知识。

我是说,如果你看看 GPT,它可能是在大约整个互联网的 10% 上进行训练的,包括所有的维基百科,许多书籍,大量的书籍,所以按照 10 的倍数增加,也许是可能的,但按照 100 的倍数增加,不清楚是否可能。

我是说,人类还没有产生足够多的知识,可以吸收到这些大型模型中,所以我认为目前的期望是,培训这些模型的成本实际上可能会达到峰值,甚至会略微下降,因为芯片变得更快,但我们不会像以前那样快速发现新的训练数据,除非有人想出新的训练数据的生成方法。

如果这一假设成立,我认为由这些大规模投资创建的模式实际上并不特别深入,它更像是一个减速带,而不是阻止新参与者的东西,我是说,今天,对于资金充足的初创公司来说,训练一个 LLM 是绝对可以做到的,因此,出于这个原因,我们期望未来在这个领域会看到更多的创新。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。