专访MosaicML联合创始人｜13亿美元AI收购案背后，创业者与投资人如何看待LLM以及Infra的过去与未来？

有新Newin·2023-12-29

关注

快看

北京文化娱乐

移动端漫画App

最近融资：F轮|2.4亿美元|2014-09-12

我要联系

Databricks 在今年 6 月以 13 亿美金的“天价”，收购了当时成立 2 年的大语言模型（LMM）基础设施创业公司 MosaicML。

编者按：本文来自微信公众号有新Newin（ID：NewinData），作者：有新，创业邦经授权转载。

2023 年即将结束，回顾今年生成式 AI 爆发式的增长，AI 领域最受瞩目的一笔10亿美金的并购 —— Databricks 在今年 6 月以 13 亿美金的“天价”，收购了当时成立 2 年的大语言模型（LMM）基础设施创业公司 MosaicML。

受这起收购的推动，AI Infra 初创公司以及科技巨头们纷纷开始了融资和产品迭代的热潮。回看 MosaicML 这笔收购，当时仅有 60 多人，但是已经推出了 MPT 7B、30B 两个开源大语言模型，总下载量超过 330 万，也是最早一批推出开源 LLM 的公司之一。

本期为大家分享的是创投圈知名播客节目 OnBoard! 不久前与 MosaicML 联合创始人& CTO Hanlin Tang 深度英文对谈。

此外，OnBoard! 还邀请到了老嘉宾&硅谷成长期投资人 Sapphire Ventures 合伙人 Casber Wang，带领大家从创始人和投资人的视角，一起解读这个有里程碑意义的收购，以及对于生成式 AI、Al infra 核心竞争力和未来格局等等话题进行非常有意思的探讨。

这次深度对话的中文完整内容由 有新Newin出品，enjoy～

Monica

首先，我们应该向观众简单介绍一下你自己，以及你是如何进入 AI 领域的。像往常一样，我们也希望你们两位分享一个有趣的事实。你最近发现有什么有趣的 AI 项目或产品吗？对于 Casber 来说，我还有另一个问题。你最近在 AI 方面的投资是什么？

Hanlin Tang

很高兴来到这里，感谢邀请，我是 Hanlin Tang，曾是 MosaicML 的 Co-founder。我在 AI/ML 领域工作了相当长的时间。我想我最初是在研究生院读书时，当时我在计算神经科学领域工作。那时我们没有大量的数据集来训练这些模型，但我们仍在尝试构建可以执行视觉识别任务的神经网络层。

因此，当整个 ImageNet 和深度学习的浪潮来临时，对我来说，自然而然地也转向了这个领域，所以之前在 Intel 负责 AI 层面的工作，再之前则是在另一家名为 Nirvana Systems 的深度学习初创公司。哦，有趣的近期项目或 AI 领域的事情，我实际上可能会提到我最近偶然发现的一篇旧论文。在没有 ImageNet 来训练这些模型的时代，人们所做的是组装这些卷积神经网络，包括卷积层和池化层，而这些权重并不是通过反向传播学习得来的，而是实际上在猴子的视觉皮层中测量得来的，他们测量了滤波器的结果，并将其实例化到硅基神经网络中。

事实证明，这种方法的性能相当好。这就是旧式训练这些模型的方法，你只是尝试弄清楚大脑是如何做到的，然后将这些滤波器倒入神经网络中。我希望这种方式能奏效，并且很兴奋地看到，即使在今天，这种类型的架构仍然与它起源的神经科学有着密切的联系。

Monica

当然，我非常期待看到更多神经科学研究与深度学习之间的联系。

Casber Wang

谢谢再次邀请，Monica。我是 Casber Wang，Sapphire Adventures 的合伙人。我们是一个主要投资企业级 B2B 的成长阶段风险资本公司，管理着大约 100 亿美元的资金。目前，我主要关注 Infra 方面，包括数据、 DevOps 和 AI/ML 领域。显然，我会说从投资者的角度来看， AI/ML 已经发生了很大变化。即使回想到 2017 年和 2018 年，当时人们对 AI/ML 的推广还不够真实，大家对 AI/ML 非常怀疑。

ChatGPT 的推出我认为已经在很大程度上改变了这种情况，但即使在那之前，我认为你看看我们所谈论的那些更传统的 AI ML，那些被像 Alteryx 或者 DataRobot 这样的公司支持，在企业中广泛使用的技术，它们仍然被广泛使用。我倾向于认为 ChatGPT 是一个分水岭时刻，它吸引了很多关注，无论是从筹资还是从消费者角度来看。但正如 Hanlin 刚才提到的，很多发展已经在很久以前就发生了。我倾向于认为 AI/ML 的发展更像是机械工程，比如建造桥梁。

现在的 AI/ML 几乎像生物学研究一样，你可能会最终达到某个地方，有可以追溯的路径，但很难确切地知道你在逐块建造什么，所以我只是觉得时机、一切都非常合适。当 ChatGPT 实际推出时，这个领域发生了巨大的 Cambrian 爆发。然后我们开始看到很多兴趣，无论是从企业家方面还是从投资者社区的角度进入这个领域。因此，我花了很多时间关注 LLM 公司等，而且往往对这些机会非常兴奋，不幸的是，我没有投资 MosaicML ，祝贺 Ruby 和 Hanlin 取得了很好的成果。我最近在一家叫做 Weights & Biases 的公司投了一笔资。我认识 CEO Lucas 已经很长时间了，这是我会说的 MLOps 领域之一，它已经存在一段时间了，现在又开始向传统 ML 领域，但也向新的 LLM 方面发展。

Monica

Weights & Biases 成立已经很久了，这波新的 LLM 浪潮是否改变了你对现有公司的看法？

Casber Wang

我不这么认为。我实际上觉得它是从传统 ML 到新的 LLM 方面的一个很自然的桥梁。我认为你可以谈论不同的人物角色，对吧，像现在有更多新人加入做 AIML。但当我们看市场顶端时，我认为有些人已经做了很长时间，无论是欺诈检测、自动驾驶汽车等等。我认为这波新浪潮，并不是说它是完全新的，会取代旧的东西。我看它更像是通往未来更大事物的延伸。

Hanlin Tang

我只是想说，我仍然记得当 Weights & Biases 刚起步时，在那里有一个非常小的展位。他们建立了一个特别出色的平台，特别是在 LLM 领域。至少对于我们在训练大规模模型方面所做的，监控的能力，以及分享监控的能力非常重要，因为我们每天都有 10 到 20 个人查看模型训练的结果，以确保一切正常。Weights & Biases 在构建一个真正可用和优秀的产品方面做得非常出色。

Monica

从投资者和创业者的视角，看看现在已有的 MLOps 和工具，其中哪些会在这波新的 LLM 浪潮中保留，哪些可能会被替换、颠覆或改变？

Casber Wang

我觉得很有趣，因为我认为随着越来越多新事物的出现，某些更老的东西也会随之而来。我是说，显然，有些技术是老的，但我认为从技术栈和哲学观点来看，它们仍然存在，我告诉人们，比如 Lucas 在创立 Weights & Biases 之前，他创立了 Cloudflare，后来卖给了 Appen，那是一家标注公司，然后在此基础上扩大了标注业务，所以我认为你会开始看到许多被重新激活或以不同形式重新出现的领域，

我认为这里真正令人兴奋的是，我认为在 LLM 之前，许多模型并没有真正部署到生产中。我认为 MosaicML 在帮助人们真正部署到生产方面做得非常好，而我认为，一旦你将东西部署到生产中，就会出现各种实际的问题或难题，而这些问题或难题将由一套新的工具来解决，比如监控或流量控制。

而今天，我认为再次从投资者和企业家的角度来看，你可能会抽象地将这些 LLM 视为一个黑盒子，作为一个 API 调用，而实际上在你扩张这些应用时，底层发生了更多事情。在管理更好的部署或推理方面，你可以做更多事情。你如何管理和优化这些工作流程以达到最佳结果。当然，Hanlin 可能对此有更多见解吧？

Hanlin Tang

我想，我们看到的是，企业想要部署这类模型时，显然有 MLOps 的需求，以及监控和评估等方面的需求。但对我来说不清楚的是，现有解决方案目前是否足够好，足以支持部署，还是真的存在那种阻碍他们多个月无法进行生产部署的痛点？就像一个新的界面或新的 MLOps 工具介入时一样。挑战的一部分也是，目前对于 LLM 应用来说，它更像是一种创造性的探索，就像每个企业都在做，“让我们举办一个 LLM 黑客马拉松，尝试原型这些应用可能会是什么样子”，在没有确定这一点之前，很难预测需要哪些额外工具才能使这些事情真正实现。

Casber Wang

再分享一个轶事。我昨天刚在旧金山参加了 Google Next，我不打算点名，但那里有一个相当著名的动作识别供应商。我去看了他们的演示，而这个演示在中间卡住了三次。从真实企业的角度来看，如果你启动了 GitHub Copilot 或者说像 GitLab Copilot 这样的东西，而且在你第一次尝试使用时，你遇到了三个异常，那可能不是一个很好的体验。但早期，我想根据 Hanlin 的观点，人们正在尝试这些东西。我们是如此兴奋，愿意在早期承担更大的错误容忍度。但随后，在更严肃的企业环境中，如果你想让人们真正将其整合到日常工作流程中，你必须期望一定程度的准确性，这与实验和尝试完全不同。

Hanlin Tang

我只是想回应一下，很多艰苦的工作并不是找到一个酷炫的方法来服务于 LLM，而是像磨掉最后的 99% 的延迟那样的艰苦工作，或者像每个愚蠢的服务失败，或者随机的 GPU 故障之类的。这些基础工作的处理使这些产品达到企业对关键任务部署的可靠性和期望，所以我认为目前的很多工具，包括我们所构建的，实际上还没有达到那种状态，因为还有很多艰苦的工作需要完成。

Monica

我记得在我上一期与 Casber 的节目中，我们简要谈论了这个话题，当时 MLOps 领域非常碎片化，那期节目大概是半年前，比 LLM 浪潮成为主流之前。我认为你们刚才讨论的让我想起，可能是因为我们看到传统的 LLMOps 领域并没有看到很多大的冲突，可能正如你们所说，大多数模型没有进入生产阶段，所以它们没有机会扩展。如果 LLM 能够将更多模型真正地有AI应用增长，我们可能会看到很多现有的工具，无论是新的还是旧的，都会专注于生产环境。这听起来像是更多的机会！

回到 Hanlin，所以我想对于那些不太了解的人来说，如果你能给我们介绍一下MosaicML 做什么，以及它的关键技术和业务。

Hanlin Tang

当然。我认为我们大约两年半前开始，因为我们看到大规模模型将成为一种趋势，使这些工具高效、易用和易于获取是这些能力真正进入更广泛企业的方式。在 Intel ，我们看到许多公司在这方面的挣扎，不幸的是，即使到今天，深度学习的软件工具仍然非常不成熟。你配置错误一个驱动，突然就慢了两倍，而且你不知道为什么，所以这就是我们要解决的问题。

我们很幸运看到我们的产品准备好之后， LLM 波浪来临。Mosaic 的简要介绍是，我们构建了软件 Infra ，使公司能够高效、轻松地在自己的数据上训练自己的模型。我们相信在一个可能更好的世界中，我们赋予企业能力，使他们能够训练自己的模型，自己的 LLM ，并建立自己的偏见和观点。我们的工作是构建 Infra ，解决性能问题，解决工程挑战，使这些公司能够非常轻松地做到这一点。我们很幸运有一些客户，包括亚洲的，实际上相当多，但也包括美国的，与我们一起走过这段旅程。

Monica

Mosaic 是什么时候成立的？

Hanlin Tang

成立于 2021 年 1 月。

Monica

2021 年 1 月的时候，很多人或许都看不到 LLM 或大型模型将像我们现在所说的那样占据世界，所以我很好奇，那时你在做什么？你和你的团队看到了哪些早期迹象，让你们相信是时候为大型模型建造 infra 了？

Hanlin Tang

我想早期，我们看到 OpenAI 在 GPT 系列模型上所做的事情。显然，它们还没有达到今天的能力水平，但看着已经很有可能性。坦率地说，当我们专注于大规模模型时，我们认为大规模模型将成为一种趋势。但它们是 LLM 、大规模计算机视觉模型还是非transfomer 架构的大规模训练，当我们开始公司时这还不太确定，所以一块一块地，我们从简单的计算机视觉模型、分割模型到 BERT 风格的模型，再到 LLM 。我会说就在去年这个时候，我们已经构建了这个技术栈，但大多数公司都在问，“什么是 LLM ，我为什么需要它？”哦，这些东西编造了很多东西。我为什么要使用这样的东西？我认为这只是一个时机问题，我们看到了大规模模型，我们不知道确切的类型，我们必须为未来做好准备。

Monica

确实，在过去的一年里发生了很多事情。从 Stable Diffusion，和去年年底 ChatGPT 的问世，你们看到了什么？你们是什么时候开始意识到，你们的平台需求发生了变化？在你们的产品线和商业模式方面，你们过去一两年内做出了哪些主要的里程碑式变化？

Hanlin Tang

我认为显然一旦 ChatGPT 出现后，企业的需求显著上升。一开始，我们真的很专注于从头开始预训练我们自己的模型，完全控制数据来源，并为特定的语言需求进行调优。我认为随着技术环境的发展，我们然后扩展到，好的，现在你想要接手一个现有的模型并对其进行微调。你想能够服务这种构建出来的模型，我们想要构建出这种端到端的训练和构建 LLM 的堆栈。我们的重点一直在 ML 系统方面，所以这就是我们所看到的进展。

Casber, 我不知道你在尝试解决这个领域的初创公司中看到了什么。像他们的进展是否与我们的方式类似，还是实际上与我们的方法相反？

Casber Wang

你们公司 Intel 可能在企业方面看到了这一点，事情总是从更定制化开始，然后才会像你们团队那样，先卖给顶层人物，这些人愿意为此付出高价并想要定制这些东西，然后才能向下游推广。

我认为像你们这样，以正确的方式接近市场。有些人，你知道，从时间角度来看，不幸的是，他们被困在了旧有的范式中。之所以这样，是因为在这里之前有很多兴趣、很多关注、很多预算，而不是真正的现金。之所以有那么多针对 MLOps 的点式解决方案，这是我的理论，是因为大多数认真做 ML 的人已经建立了自己的管道，所以他们只需要一两个点式解决方案，就能够插入并解决他们堆栈中的某个问题。因此，有公司在围绕如何构建可以插入他人堆栈的东西来建立业务，而不是看全局。

这并不是因为他们自己的过错，而是没有看到更大的图景。

就像在大型企业中，你不会考虑如何训练我的端到端模型，而当 ChatGPT 出现时，这是一件大事。我确信我们还会谈到的另一件事是，那些从非消费角度出发的人，从自下而上的那些更长尾的应用，那并不是企业级的。但现在它们正在出现，但这是一个 Prompt 市场，或者是一些其他的东西正在出现。这些是在 LLM 出现之前通常不需要的新东西，所以这是在解决一个非常不同的领域。

Hanlin Tang

我我倾向于同意。我认为我们的论点一直是专注于硬件工程问题，尤其是 ML 性能。在传统的机器学习中，如果是 100 美元或 50 美元，可能不值得迁移到新的堆栈或类似的东西。但当它是一百万美元或五十万美元时，这种效率突然变得非常关键，所以我们想解决一个核心的经济问题，有这样的需求，并希望我们能够构建出其他工具。

Monica

从一开始，你们就专注于提高大型模型训练的成本效率。那么你们的早期客户是谁？我会想象，比如早期像 OpenAI 这样的 LLM 构建者，他们那时可能已经建立了他们的堆栈。

Hanlin Tang

我们早期的一批客户是那些正在训练 Bert 模型的客户。对于他们来说，他们试图抓住越来越大的 Bert 模型，所以那是我们的首次介绍。我们实际上也在计算机视觉和语义分割方面投入了很多，但在那部分起飞之前，NLP 和LLM 的阶段已经进来了，所以我认为那是我们获得的第一批客户。但我们花了整整一年的时间来构建。显然，我们与潜在客户进行了交流，了解了他们的痛点。但工程方面确实需要首先进行高效的大规模训练。

Monica

我想深入了解一些非常有趣的 MosaicML 公司的产品或公司决策。首先，我注意到的是，一开始， MosaicML 实际上开源了很多工具。汉林，你能不能谈一谈你们开源了什么，以及为什么决定开源？

Hanlin Tang

当然。一开始，我们开源了一个基于 PyTorch 的库，名为 Composer，它允许有效地训练，同时也能有效地插入新类型的算法来训练这些模型。我们实际上是出于对我们研究团队进行实验的必要而构建了这个。一旦我们想要将其推广给客户，就很明显，ML 数据科学家想要看到和了解一切，他们不会接受“嘿，这里有一个加速模型训练的黑匣子代码，但你不能看，不能知道它做了什么，这是专有的，一些专有的秘密配方，”这真的行不通。而我们从核心上非常支持开源。老实说，WHI（制作数据库的公司）从核心上也非常支持开源，因为从哲学角度来看，这非常契合，因为我们试图开源它。我们从外部人员那里获得了很多贡献，他们进来使用等等。

后来，或者说更晚些时候，我们决定也开源 MPT 。MBT-7B，我认为是首个商业许可的 Llama 风格模型被发布。对我们来说，这个模型很棒。我们对社区的反应感到非常荣幸。对我们来说，这是我们工具能做什么的声明。我们开源它的原因是显然为了帮助社区从中发展。但也是，“嘿，伙计们，这个模型从头开始训练只用了10天。这不是什么神奇的八位数成本。这里是它真正的成本以及如何做到的。顺便说一句，只需点击按钮，它就能工作，”这也是我们考虑的部分目标。

Casber Wang

我想在这里问一个问题，如果你今天要开始 MosaicML ，知道已经发生了这么多的发展，人们已经加入了开源列车，显然，我认为你仍然会像你提到的模型那样开源，向人们展示你用 15 或 20 万的训练成本，相比于多少开源培训，以及验证策略。但就核心架构而言，你今天还会开源像 Composer 这样的工具吗？或者说，因为市场更加成熟，我们就更倾向于封闭源代码？

Hanlin Tang

我认为对于像 Composer 这样的工具，我今天大概还是会选择开源，主要是因为数据科学家不信任封闭源代码，尤其是当他们把数据和模型托付给你时。如果它保持封闭源代码，要跨越那个说服障碍真的很难。我个人认为，对社区来说，开源总体上更好。从商业角度来看，如果我们找不到一种方法来在开源的同时盈利，那么我们可能选错了行业，或者我们必须重新考虑我们正在做的事情，像我们必须找到一种在开源的基础上盈利的方法，无论如何，这是我们一开始的理念。

Monica

这也是我对 Casber 的一个问题，因为我们长期专注于 Infra 开发者工具和领域，我们经历过 2020 年和 2021 年，开源的热潮，那时候你有一个非常好的社区（也不需要收入和商业模式），好像就能成为独角兽。在那之后发生了什么变化？如果我是一位创始人，我应该如何思考是否开源我的产品？如果我已经拥有一个相对成功的开源项目，我应该如何考虑商业化之路？

Casber Wang

我认为最大的差别是，之前，大多数开源公司或更有机的开源项目都是这样的，就像你想到 Confluent，Kafka 不是为了开始 Confluent 而开源的，它基本上是一个有机过程，在 LinkedIn 发展了三四年之后才开始创建公司。然后在 2020 年和 2021 年，LinkedIn、Uber 的高级工程师开始使用。你要创办一家开源公司，我要看你发展过程是否是有机的。最极端的例子是有人在创办公司的那一刻就开源项目，并宣称那家公司是一家开源公司；我认为这样你就无法获得社区吸引力的好处，但也无法让社区共同构建产品，对抗测试产品，但你也在商业化方面花费了精力，你基本上是在向社区免费提供东西，然后稍后你需要捕获东西。

从这个角度来看，这是一个更难的循环，所以我认为最重要的一点是考虑开源与否，就像这个产品团队是否能够在不管是不是开源的情况下对该产品进行商业化。我认为这是最大的一点，然后如果开源是正确的决定，那么就变成了“这个开源项目已经存在多久了"，如果它是一个数据库产品，就像如果它只存在了 6 个月，你可能需要更多时间来对抗测试那个东西。

如果你只是在一个非常年轻的开源项目数据库方面开始一家公司，你会遇到稳定性问题，因为你还没有经过对抗测试，”与某人从 Progress 或 MySQL 这样更经过对抗测试的项目开始相比，你会得到更多开源验证的好处，不是吗？我认为这是一个非常重要的决策。只是要思考你所处的开源项目类型，以及你应该开源还是不开源。

当然，其次，我认为像 Hanlin 提到的，在一些快速发展的领域，如 ML 和 AI，开源可能是一个非常有趣的策略，因为你在某种程度上将自己嵌入到社区堆栈中，通常，我认为像我这样的投资者最天真的问题之一就是，为什么不是 Google 做这个？为什么不是 Amazon 做这个？为什么不是别人做这个？我认为这在一开始也很大程度上是一个品牌的事情，社区会考虑堆栈应该是什么样的，然后他们就会跟随这个项目。他们不会去想，嘿，让我去找找亚马逊、谷歌有什么，他们只会坚持使用 Mosaic 和其他三个工具，因为这就是社区里的东西。这就是人们使用它的原因，与其他不同，所以这里有一种品牌和网络效应，而没有开源的验证，你真的得不到这个。

Casber Wang

所以我认为那就是开源也可以是一个非常好的强有力的验证策略，与另一方面相比，我认为开源通常在市场非常成熟，问题集非常成熟的情况下表现不那么好。

作为买家，我知道我需要解决什么问题。我知道这里有具体的 KPI 会拿来和你比较，然后这个工具是否开源对我的决策影响不大，所以它更像是一个锦上添花的东西，而不是早期你可以有机会进来为社区定义标准。这就是我认为开源变得非常有价值的地方。

Hanlin Tang

我想回应一下，客户来找我们并不是因为我们传统上是开源的，客户数据科学家在某处使用开源工具，他们想购买像一个管理版本的东西，但对我们来说，情况非常不同。我们大部分来自客户的询问不是因为他们已经在使用 Composer。他们想买这个未经管理的 Composer，因为我们实际上并没有提供这个产品。他们找我们是因为他们有一个问题需要解决。他们想训练一个模型，开源的 Composer 是做到这一点的工具之一。他们喜欢在自己更了解的技术栈上进行构建，而不是它仅仅是我们整个需求生成路线的一部分。

Monica

但我认为你提出了一个关于市场时机的非常有趣的观点。我认为这也是一个利弊并存的问题，因为市场仍在兴起，所以你在早期看到的许多开源工具可能看起来不是那么理想，很容易批评他们不适合大企业使用，或者，我们不知道基础模型层会如何改变，这可能会改变对那个工具的需求。所以，那么作为一个投资者或卖方创始人，我应该等待事情成熟吗？我应该等待自己拥有一个所谓的“企业就绪”产品吗？还是你认为我们先开始获得市场份额？

Casber Wang

我认为从投资者的角度来看，对于这个问题提供更大的答案是有必要的。再次强调，不同的开源项目在技术堆栈的不同位置上也有不同的技术难题，比如，我不是要低估 Langchain 和 LlamaIndex 在他们的堆栈上所做的事情，但像那种中间件训练部分的脚本，它并不完全像数据库一样的产品。但对于他们来说，社区的度量是如此重要。因为有了开发者和我这样的人，以及其他人喜欢它的人，启动是建设的第一要务，然后所有其他工具都插入到链中，然后我只会继续使用它们，所以你有了这种网络效应，而对于第三和第四名的玩家来说，在我看来，他们应该转向其他事情，我认为已经有很多人这样做了。与那些性能更高、技术认证要求更高、人们正在使用它们来满足更具体需求的东西相比，这些东西位于堆栈较低的位置。我认为在这里你可以说，也许你不必是第一个进入市场的人，你可以带来一个更成熟的产品，立即就能正常运作，所以这是我的观点。

Hanlin Tang

我当然也同意这一点。我意思是，我们在发布之前多次测试了 Factor Composer，以确保吸引力合适，性能达到我们想要的水平，所以我们遵循了这样的路径，让它确保一切正常运行，确保性能达到我们想要的水平之后，我们才真正全力以赴。

Monica

您什么时候开始对您的开源项目进行商业化，以及随着时间的推移，您的商业化方法如何演变？

Hanlin Tang

实际上，最初我们就一直打算这样做，就是创办公司的初衷。我们知道我们需要按消耗和使用收费。我们知道，机器学习科学家和语言模型科学家，一个团队可以轻松消耗数百万美元的 GPU 小时来训练这些模型。我们想捕捉到这一点，而不是每月每位数据科学家头部收取 20 美元之类的费用，所以就商业化部分来说，我们需要构建整个 Infra 和编排堆栈，并使其在训练大规模模型方面正常运行。我们将在计算层的顶部进行商业化，要么是我们提供算力，要么是我们带来算力，但我们的软件层将是附加的。您训练得越多，使用得越多，我们就能收费得越多。这对我们正在构建的事情来说效果很好，因为我们让客户的工作负载运行得更快，并消除了模型开发过程中的痛点。因此，即使他们可能在计算上花费更多，他们实际上会消耗更少的计算资源，更快地将产品推向市场，所以这种协同效应对我们来说非常有效，

Monica

从投资者的角度来看，作为一家软件公司，您总是希望按使用量收费，这就是为什么人们喜欢它。就像您可以根据算力的使用量收费，但是对于所有的公共云公司来说，他们已经构建了 Infra ，知道如何管理他们的运营和 Infra 。那么您认为这个领域将如何发展，尤其是对于像一些新创企业来说，他们刚刚进入这个市场。

Hanlin Tang

对于我们来说，我们很幸运地有了公有云公司的伟大合作伙伴，因为我们帮助客户更轻松地训练大规模模型， GPU 的使用量就会增加，所以在这方面有很好的协同效应。如果我今天才开始，我实际上不会太注重公共云正在构建的东西，也许这有点不同寻常，但是我会专注于找到客户并让他们满意，不要太关注 Twitter 上的噪音、炒作和恐慌，因为这可能会令人不知所措，而你必须继续构建，所以我会更专注于那个方面，那里有很多机会，即使在公共云和其他产品中，软件创业公司仍然有很多机会产生影响。

Monica

我们已经看到很多公司都在进行训练或服务成本优化，他们都有 Infra 和 AI 的背景，当然，提高成本效率总是有改进的空间。因此，从产品的角度来看，除了在 benchmark 上竞争之外，什么是一个好的 LLM 训练或服务平台？

Hanlin Tang

对于我来说，成本节省或效率是一种使能因素，但它并不是价值驱动因素，因为那只是一场降低成本的游戏，这就是为什么我们实际上更注重训练方面的效率，因为这决定了市场推出的时间。如果您是一家企业，正在构建某种用于打击垃圾邮件的语言模型，每天如果您的模型没有部署，您就会受到影响，从底线的角度来看。

而且，这就是为什么我们更注重在训练方面的成本效益。而在服务方面，效率只是达到的最低标准，但可靠性、隐私、企业安全性、跨多个地区扩展，实际上才是真正有所不同的地方。我认为这正是与 Databricks 合作的优势所在，因为他们已经拥有了在此基础上构建很多东西的出色 Infra 。

Monica

你们一开始就有训练和服务平台吗？

Hanlin Tang

我们是从训练开始的，我们进行了训练、预训练、微调，然后在今年五月推出了服务(serving）。现在我们为客户提供了两套产品，用于构建和部署他们的 LLM 。

Casber Wang

但我认为 Hanlin 刚才提到的事情也很重要，从平台开始提供训练和服务与仅仅专注于训练效率有很大不同，就像今天，我所做的就是训练的效率，因为我相信你们读了 SemiAnalysis 的那篇文章， GPU 供不应求。那真的很有趣，那是一篇非常棒的文章。但是这个领域发展得如此之快，以至于对企业家的最佳建议是找到一种方法，可以始终保持相关性，考虑到这个领域的发展如此之快，明年会有很多 GPU 上线，你今天正在研究的算法可能在 GPU 充裕的情况下就不再相关了，但如果你有一个平台的价值主张，实际上与企业的底线联系在一起，也就是让我快速部署某些东西，让我通过推理来改进它。我始终是一个平台，使它们能够同时做这两者，而不仅仅是提供一个工具，我可以下载并在当前堆栈上进行优化。与企业合作伙伴相比，这是一个更好的位置，而不是像我是一个点解决方案，帮助你加速某种类型的 GPU。

Hanlin Tang

完全同意。我认为对于许多语言模型企业或打算构建语言模型的企业来说，成本当然是其中的一部分，但“只需正常工作 (It just works) ”的部分在初创公司这一边是非常被低估的，但当你与企业交谈时，他们不想浪费时间来解决错误和无限的拓扑问题以及 GPU 故障等问题，所以我认为“只需正常工作”的理念对于任何想要在这个领域构建工具的人来说都非常重要。

Casber Wang

如果我可以再补充一点，这是作为投资者看到的一种非常有趣的分化现象，就像在企业的成熟部分，比如 DevOps ，人们讨厌支付比他们认为应该支付的更多的费用，比如，我每月给 Github 付8美元，所以我不想支付任何工具，甚至是 20 美元，但在一个发展迅速的时代，今天我会说企业正在尝试更快地构建应用程序并更早地找到价值，就像他们想出去，如果你是苹果，就像我用 iPhone 作为一个很好的例子，它只是工作。我们都使用 iPhone ，因为它只是工作。我不知道，也许它的硬件不是最好的，但它只是工作。然后人们愿意为它支付高额费用，因为它与业务结果如此密切相关。

我认为这是一个非常被低估的部分，因为许多企业家都来自专家背景，他们的头脑中有很多优化思维，而对于首席信息官（CIO）这样的关键买家来说，他们的第一价值命题是，如果我今年为这个项目分配了这么多资金，后来我可以展示什么，我们说节省了10万美元，在这方面多花点钱不会真正产生影响，如果他们能真正制造出一个能产生收入的产品。

Monica

还有一个有趣的决策我想谈谈。我认为你们在介绍 MosaicML 旅程时也提到过，那就是你们为什么要自己从头开始训练一个开源语言模型。起初是 MPT 7B，然后是 30B。作为 MLOps 公司这样的服务提供商，为什么你们决定从头开始训练自己的模型？背后的决策是什么思考？

Hanlin Tang

正如我所提到的，我们的业务是构建工具，帮助公司自己训练模型。通过发布一个真正高质量的模型，社区可以在此基础上构建，我们可以展示我们的工具真的很有效，有什么比这更好的方式呢？对我来说，为社区做出贡献，让他们能够启动并构建，是一个很棒的时刻。另外，接受度方面也很好。有一些公司来找我们说，嘿，我想训练一个非常相似类型的模型，但对我来说，你选择了 100% 的英文，而我需要 50% 的英文和 50% 的韩文，因为我是一家韩国公司，我想为那个市场提供服务。或者是一半英文，一半阿拉伯文，或者这很不错，但我真的想重新调整我的数据管道，使数据集的构成更专注于金融，所以将它发布出去并开放它对我们来说很有好处。显示成本对很多公司来说也非常有启发性，因为那是一个 POC 级别的成本。现在这是一个 POC 级别的事情，你可以做，对企业、数据科学家或 ML 领袖来说更容易向他们的管理层证明这是值得的，因为它的好处。而且，顺便说一下，这只是一个不到 20 万美元的项目，这为我们带来了很多机会。

Monica

自己建LLM的过程，如何有助于你们如何设计或重新思考你们的平台？

Hanlin Tang

有很多。通过大规模训练这些模型，你可以学到很多东西。随着规模的增长，一切都会崩溃，当我们从 7B 变成 30B 时，模型的大小崩溃了。即使在训练 7B 参数模型时，我们知道 GPU 经常出现故障。我认为在训练那个模型的 10 天内，我们有四次 GPU 节点的故障，所以我们建立了一个构建系统来检测并从中恢复。我认为说我们用一些领域范围的参数训练了一个模型并通过一些方法解决了它，我们付出了很多努力，这是一回事，而说我们用我们的工具来做的，我们的客户也可以使用，从可用性的角度来看，这是非常有启发性的。然后建立正确的工具，使其对其他人来说也可以重复使用，这是非常有启发性的。

Casber Wang

我很好奇，关于参数数量等方面的讨论，以及排行榜上的表现，社区或实际买家在多大程度上关心？他们是否将模型发布与排行榜联系起来，还是更多的实际上是，我考虑因为你今天支持 3B，所以我可以启用这些用例。我们现在看到更多是从可能的收入空间开始，然后找到用例，还是从实际需求出发，认为 MosaicML 是我可以真正拥有的东西，然后再看看别的场景？

Hanlin Tang

我明白你的意思。这是一个很好的问题。我认为有一个最低的门槛，它必须是排行榜上的佼佼者之一。之后，对于企业来说，它们的关心程度就不大了，但他们希望在支付款项时能够确信，你已经达到了这个门槛。这是因为企业不希望浪费计算预算来进行大规模的超参数搜索，我们应该已经做过了。我们已经有了一套工作超参数设置，不管数据源如何，都可以训练这些模型，所以排行榜达到最低标准的门槛给了他们信心，我们的配置都很好，实际上不需要进行一堆不同的探索和超参数搜索。

Monica

你们如何帮助客户做出决策？比如，使用开源还是闭源？如果使用开源，我应该使用多少数据微调？所有这些问题中最常见的是什么？你们有没有从中总结出最佳实践？

Hanlin Tang

有很多问题，现在这个领域非常开放，我需要 Prompt 吗？还是 Prompt 足够了？我必须微调吗？这取决于我是否使用 RAG 等。在什么情况下我需要修剪我的模型？在什么情况下我需要使用现有的开源模型并继续训练它，以融入领域知识？

我们给客户提供了一系列指导方针，但同时也非常透明地告诉他们，嘿，看，这是一个新领域，你将不得不探索。我们的承诺是， Databricks 和 Mosaic 将为您提供一切工具，使您能够高效快速地探索这个领域，找到最适合您特定应用的方法，所以我们不希望客户在 XYZ 方面挣扎，而是让他们通过微调来迅速进行实验，看看是否适用于他们的用例。我希望我能有一些智慧之言，比如，如果是 X，那么只需 Prompt ，你就会没问题，或者只需微调，就没问题了。

Monica

有什么在部署企业自己的 LLM 方面你看到的典型错误或误解吗？

Hanlin Tang

我认为也许现在不太会出现这种情况，但早期，人们确实低估了 RAG 的重要性。他们会遇到很多幻觉问题，因为模型是在旧版本的维基百科上训练的，即使你使用开源模型，无论是 OpenAI 的还是自己的模型，它们都会始终训练在一个旧版本的维基百科上，对于你提供的 Prompt 中的数据与其内部权重之间总会存在冲突。解决这种冲突非常困难，所以早期，我们看到很多应用都是基于 Prompt 和类似的东西，即使稍微微调整一下，它们仍然无法摆脱这种模式。因此，对于许多用例，我们在 Databricks 上也专注于 RAG ，这是一个更加受控的环境，以更好地进入这个领域。

我们经常看到的另一个错误是没有为任务选择合适的模型，如果你使用开源工具的话。不同的模型具有不同的延迟，并且它们还训练在不同类型的数据上。一些模型不擅长处理代码，一些模型对你的特定语言不擅长。而且，不是简单地将一个模型替换为另一个模型这么简单。哦，我升级到一个更大的模型，它一定更好。情况并不总是如此，这取决于模型的数据来源。

Monica

这是一个开源模型特有的问题，还是一个 LLM 问题？我们是否会看到一个足够强大的开源 LLM ，就像应该是 GPT5、6 一样，然后问题就解决了。

Hanlin Tang

我不这么认为。即使对于 GPT-4 和 GPT-3.5，仍然存在许多情况下，它们无法提供正确的上下文来解决你的特定用例，无论是特定的行业术语还是缩写词。因此，仍然会遇到这些问题，例如冲突，或者数据的新旧问题始终是一个大问题。你希望你的客户聊天机器人能够提供有关你公司的最新信息，但显然，GPT-4 的数据是有一个特定的截止日期的。

另外，一方面， OpenAI 正在投资越来越多的产品和工具，不会让人感到意外，如果未来他们将提供更多的信息检索工具，以帮助他们的企业客户。另一方面，在开源领域，我们也看到越来越强大的开源工具，可能会有更多的 LLM 和更多的公司将在未来构建这方面的东西。关于这个开源和商业之间的竞争，以及企业客户可能会发生哪些变化，你有什么看法？

随着时间的推移，我认为对于企业来说，有些应用情况下使用像 OpenAI 这样的封闭 API 是很有意义的。但也会有其他情况，你确实希望构建和训练自己的模型，无论是出于数据隐私原因、数据来源原因、法律原因、领域特定性，还是成本原因。

如果你的任务不太复杂，不需要一个能够智能推理的 GPT-4 来解决它，你可以轻松部署一个 MPT-7B 或 Llama7B 模型来满足任务，而且在企业规模的操作中更具可扩展性。我们的承诺至少是为构建组件提供非常简单的工具。然后，对于购买组件，我们只是使用 API 来轻松将其连接到 LLM 应用空间的其他部分，比如数据来源来精细调整模型，或者矢量，当然，你想要附加到的矢量，我们希望能够在两方面都帮助企业。

Casber Wang

如果我可以把这个问题扩展到更大的层面，我认为，当 OpenAI 最近宣布在其产品和工具上添加了某些数据层或支持某些功能时，人们在 Twitter 上开玩笑说一堆 Y Combinator 公司都完蛋了，但类比告诉大家，如果人们对软件投资不是很了解，为什么我们有那么多不同种类的数据库用于不同的用例？为什么我不能把所有东西都倒进一个东西里？这支持事务性、分析性、AI/ML 等等，但这不是事实，尤其是在规模和成熟度方面，成本效益变得真正重要的地方，例如，一个非常基础的用例，如果我真的只是在构建一个从 OpenAI 检索结果并提供服务的公司，那么当然，无论他们在市场上提供什么样的 Copilot 在 OpenAI 上，都会彻底毁掉我的业务。

如果我在更大规模上做更复杂的事情，当成本成为一个问题，性能成为一个问题，准确性成为一个问题，数据来源成为一个问题时，情况就不同了，你的数据在哪里？我的数据在 S3 和数据湖中，我是否需要将其传送回来并进行一些操作？这会花费多少钱？我如何保持它的新鲜度？我是否需要重新构建整个流程？所有这些都变成了一个巨大的问题。

我认为，总体而言，我个人的猜测，我非常有信心，就是我们将会看到一个更加分散的景观，包括开源、闭源和数据供应商，每个人在这个生态系统中都扮演着角色，因为如果我们看到一个规模化的未来， AI/ML 将成为每个企业应用的一部分，我认为这将会发生。你将会有与用户的许多不同的互动点，在后台，你还将会有与用户的许多不同的互动点，这将会创造自然的分散，而不是说，嘿，这里有一个叫 API 的黑匣子，你可以得到任何你想要的。

Monica

是说在 LLM 模型还是工具方面的更多碎片化？

Casber Wang

我指的是人们如何使用它的设计模式（会越来越碎片化），这是我的观点。

Hanlin Tang

我完全同意。我认为这可能更好，因为不同的选择会为更健康的生态系统带来更多的竞争。而且，我们仍然处于 LLM 浪潮的早期阶段，因此，现在宣布会有一个基础模型，可以统治所有用例，并只需调用它，就结束了，然后继续前进，这还为时过早。

Monica

确实。这听起来像云计算领域，尽管你看到建设数据中心、构建云 Infra 非常昂贵，我们只看到了三家公共云公司，但即使它们也提供了数百种用于管理回收 Infra 的工具，你仍然看到大量的公司在构建数据仓库和应用程序。

Casber Wang

但是，我很想听听你们的看法。作为投资人看到这么多 LLM 的参与者很兴奋，然后老牌公司正在构建这个宝石，而谷歌也即将推出。当然还有 OpenAI ，显然还有许多第三方公司，Anthropic 也在其中。作为投资模式的一部分，我认为，我正在投入十亿美元来先建造道路，希望汽车会出现，但是如果汽车不出现，那就无效了，这就是问题所在。因为 OpenAI ，你看到了ChatGPT 有超过10亿美金ARR，你试图不断扩大规模是有道理的，但是对于一些其他人来说，如果我正在建造所有这些道路，然后后来没有人在我的道路上建设，那对我来说是一个真正的问题。

Hanlin Tang

我同意。我认为企业仍然在寻找这些基于应用程序和 LLM 的应用程序的产品市场适应性。我确实认为那里有一些东西。我们已经看到了许多部署实际带来业务价值的情况。但我不确定是否有足够的汽车可以行驶在目前铺设的所有道路上。因此，看到这在未来几年如何发展将非常有趣。另一个我们看到的挑战是，如果它确实是一个封闭的 API ，不同的 LLM 模型提供商如何区分彼此。它们之间可能存在非常容易的切换成本。这也是对那些试图在 API 后面构建和提供 LLM 的人的另一个挑战。

Monica

如果很难评估 LLM 模型的性能，那么无论使用哪个模型，都不重要，这取决于你提供的服务，你向客户提供什么？他们是否希望我只提供一个模型，还是我提供我的模型和一个平台，或者他们还希望你展示在某个特定用例中的性能。

Hanlin Tang

我知道在这里进行评估是一个很好的问题，所以，我意思是，我们通常与企业合作。他们可能已经有一个ML团队，我会说有五到七个人，甚至可能更少。他们使用我们的平台来构建和训练 LLM 。现在，评估方面，有点像是“无政府状态”。在内部，我们有一个我们称之为“vibe check”的东西，我们只是部署一点并尝试一下，看看会发生什么。

目前，这显然对许多企业来说是不可持续的，他们会为我们提供一些关于如何构建正确的评估指标以满足他们下游用例的指导。我认为很多注意力都集中在评估基于聊天的应用程序上，但许多企业应用程序并不是基于聊天的。它们是纯粹的检索、分类，以及各种这些场景，你实际上不能为模型在业务上的表现和影响提供硬性数字。而这些是我们经常寻求的用例，因为它们是真正的用例。它们更复杂，更可持续。这也更可持续，一旦你解决了问题，你就可以证明训练一个更大的模型是合理的，因为精度提高可以转化为业务上的真金白银，所以这就是我们如何在评估领域进行评估的方法。

但现在还处于早期阶段。我们有一些客户与我们一起训练特定语言的聊天机器人。然后他们说，Hanlin，我在许多不同的数据混合上训练了五个不同的模型。我分辨不出它们之间的区别，我应该使用哪一个？我说，好吧，我们在这方面没有好的建议，但好消息是你分辨不出区别，只需选择一个并投入生产，看看会发生什么。

Casber Wang

这是一个非常有趣的观点，因为我觉得你有两种思考方式。一种是这些投资的折旧速度。发生得太快了，如果我是一个LLM，我的模型停留在 GPT-3.5 的水平，而其他人已经用上了 GPT-6，每个人都有 GPT-6 或 S3 玩家有 GPT-6，为什么客户要选择我呢？

但另一方面，我希望LLM肯定会随着时间的推移变得更好，语言是一个很好的交互，但现在我们不会百分之百准确，比如，你去麦当劳想要饮料，你想要大杯的，你想要冷的，你想要不冷的，你想要怎么样，语言本身存在很多混淆，所以期望语言应该百分之百准确是不现实的，改进速度可能会随着时间的推移而变得越来越小。

但对于你的观点，正如你所说，随着我们构建更复杂的应用程序，你知道，不仅仅是传统的聊天机器人，当你涉足一些更多的数字内容，数据检索，实时数据推断和结果服务时，那就是我认为一些真正的魔力发生的地方，更多的确切信息实际上进来了，不仅仅是语言本身。

Monica

另一个我好奇的问题，是谁来开发基于企业内部 LLM 的应用？是企业自己构建的，还是他们找到了第三方供应商来做？

Hanlin Tang

都有。一些数字原生企业尤其是前瞻性和复杂的，所以他们会自己构建。其他一些可能会引入第三方来协助集成和实际部署模型本身。

Monica

我问这个问题的原因是，因为我想知道这个原生 LLM 应用的景观将如何影响SaaS 生态。现有的 SaaS 公司都在尝试将一些基于 LLM 的功能融入他们的产品中，但实际上当涉及到他们的客户需要时，所有客户都会说，我希望 LLM 能够理解我，如果他们已经与 MosaicML 合作，用你们的 LLM 来构建并改进，他们已经使用了他们的所有数据，那么为什么所有这些其他 SaaS 公司还要自定义或个性化他们的 LLM 以适应这些客户呢？也许在将来，所有这些 SaaS 公司都将构建在你们已经管理的 LLM 之上。

Hanlin Tang

这是个好问题。我认为 Database，我们最近发布了Database Assistant，它几乎就像是数据库内的联合驾驶员，而数据库平台内部可能已经构建了自己的元素并了解它们，但这些元素可能不了解客户试图使用的工具，所以像数据库了解数据库平台的一切，具有内部数据和知识，比如如何配置它，如何进行正确的查询等等。无论你为自己的数据集专门制定了多少模型，你永远不会知道那些工具具有什么，因此，仍然会有这种组合，你将看到两者都在使用。

Casber Wang

我还认为在应用 Saas 应用程序方面，我认为它将成为一种预期的规范，我们期望，就像如果你打开 Outlook，有一个 ChatGPT 插件，我可以很容易地起草一个email: 非常感谢你们的采访，Monica，结束后我打开 Gmail，发现没有这个插件，我会非常失望的。我可能以后某个时间就不再使用 Gmail 了，我认为你和用户将在应用程序层面看到这些界面变化。

但正如 Hanlin 所说，假设你是 Salesforce ，你正在推出销售 GPT 泡泡或其他什么，但你实际上无法查看或处理 Salesforce 之外的数据，在销售方面有很多事情，比如显然他们拥有很多 CRM 数据。客户信息，但是在很多方面，例如，显然有很多与 CRM 之外的数据相关的事情，比如有人与此电子邮件地址相关联吗？他们在网站上点击了多少次？他们花了多少时间？参与程度如何？这些都不是 Salesforce 中的数据，而可能在 Databricks 或 Snowflake 中，因此希望 Salesforce 训练和拥有这些数据是不现实的。

我个人的感觉是， AI/ML 不会改变数据存储的位置，就像你不会因为这个新的很酷的AI CRM ，现在不再将数据存储在数据区域，而是将数据存储在这个 CRM 中。这并不是事实，我认为 CRM 数据仍然会存储在 CRM 中，但从应用程序用户体验的角度进行增强。然后，你有这个大量的数据在 AWS S3 或者数据仓库中，如何将其与 CRM 数据融合以创建一些见解？这是一个不同的话题，我认为。

Monica

我在想，将来每家企业都可能拥有自己的 LLM 吗？因为我可以尝试成为插件系统，所有其他 SaaS 公司的工具可能都会成为插入到那个LLM的插件——如果可能的话。

Casber Wang

这很有趣，因为我觉得如果你看看软件发展的历史，就会发现，你看看 Oracle ， Oracle 付出了巨大的努力，拉里·艾利森实际上有很深刻的见解。那么为什么人们要集成 25 个 SaaS 应用程序，当你可以来 Oracle ，我会为你构建BTP，就像无论业务如何， CRM ，客户成功等多个应用程序。

我认为真正的答案之一是，在幕后使每次交互都使用相同的数据模型，这需要大量的工程工作，会出现各种各样的 bug，不同的业务部门对如何与某些数据进行交互有不同的要求，比如，他们想看到不同的成本数据，所以我认为这种整合模型，在我看来，可能不会起作用，所以我认为最终结果仍然会是今天的样子，你有不同的数据孤岛，希望你有更好的元数据(meta data)层，有AI和ML帮助人们在这些数据上获得更多的见解。但我认为期望多年前的数据被清理到一个非常干净的地方，你可以问任何问题，结果就会弹出，这可能有点太高了。

Monica

这很有趣，因为现在MosaicML 已经是 Databricks 的一部分，假设 Databricks 上已经拥有了一个企业大部分数据，现在有了MosaicML 的能力，你对这个问题怎么看呢？

Hanlin Tang

我的意思是，我认为数据库的主要作用之一是，在某种程度上，作为镶嵌，我们可以构建所有令人惊叹的工具来训练 LLM 和提高效率等等。但是如果我们可以访问客户的数据，我们可以进行 ETL，格式化和进程它并进行适当的清理，然后就会垃圾进去垃圾出来。Databricks 有很多客户，是一个很棒的平台，有很多数据处理，ETL等企业关系。因此，将数据与我们用于训练和构建 LLM 的产品相结合，对我们来说非常令人兴奋，以继续帮助企业构建他们自己的 AI 和ML系统。对吧，所以我认为作为数据破裂，现在我们有这个机会将底层数据与 AI/ML 工具连接起来，为客户提供统一的体验。当这个提议出现时，我们感到非常兴奋。

Casber Wang

我只是想补充一下，我认为人们没有意识到企业数据的移动有多有趣，有时也很荒谬，你想想，我敢保证大多数数据丰富的客户正在做的就是他们将 Salesforce 数据传输出去，然后将它们 5 个或更多 SaaS 聚合工具的数据汇总到他们的 reverse ETL 中，然后将其传输回销售部门，或者只是向客户发送电子邮件。这就是你所拥有的互动。因为你仍然需要 360 度的视图，如果你是一家特定客户的 B2B 公司，那么你需要对该特定客户进行详细分析。你想要运行不同的成本分析。而执行此操作的地方不是应用程序，而是数据仓库和数据湖上下文，我认为这没问题。那是你可以1生成大量见解的地方，训练一些适当的模型和专有数据，但也可以采取行动，帮助人们封闭循环。

Hanlin Tang

绝对是。我们经常开玩笑说，至少对于我们的工具来说，大多数 ML 工作最终都是数据清理工作，尽管这并不太光彩，但它却非常重要，我听说有人为了从古老的数据库中提取信息以构建这些模型，不得不写代码，那就是在看到这些外观应用程序时幕后正在发生的英雄式工作。

Monica

确实，所以我们谈了很多关于业务模式和商业化的东西，但肯定在这个领域还有很多非常技术性的东西，因为我们看到所有这些 LLM 公司购买了成千上万的 GPU ，突然之间， MosaicML 出现了，说你只需要不到 1000 万美元来训练一个 70B 参数的模型，可否介绍一下，你们究竟做了什么以实现这种高效率？既然你们已经与不同类型的 LLM 合作，那么在未来，你们看到有哪些其他方法可以继续提高效率？

Hanlin Tang

我希望有一种可以自动提速一切的法宝。但不幸的是，它就像是这里 5%，那里 10%，每个小翻转的使用，它是一种组合，我认为我们已经做的系统级优化，这些东西不会改变训练本身的数学。但对于我们来说非常重要的是，实际上改变了训练本身的方法，因为反向传播不是一件神圣的事情，它只是碰巧有效，所以我们不能把我们今天训练模型的方式看作是神圣的。它们之所以存在，只是因为有人尝试过，他们得到了一个好的结果。

所以我们非常注重第一原则的方法，比如当你在训练这些模型时，你想设置什么样的课程？是否有特定的算法要应用？这些都是可以结合在一起提高效率的类型。而且甚至不仅仅是在 LLM 领域。我们还从头开始培训了稳定的Stable Diffusion 2，总共花费了50000 美元，这是公开引用的数字之前的 10 倍。如果你看看我们做了什么，我们实际上发布了一个博客，展示了我们所做的一切，以及降低培训成本的幅度。这只是一个混合体，涉及到系统优化算法，使一切都能正常运作的事情。

Monica

在每一次技术浪潮中，我们都看到很多初创公司都在优化方面的尝试。但是作为初创公司，如何构建一个基于优化技术的业务和产品，而不是变成咨询项目或研究项目?

Casber Wang

我认为这个问题，只是考虑到 AI/ML 的发展速度有多快，AI/ML 中可以优化的问题有太多了。如果你现在回到最底层比如网络通信，Nvidia 收购了 Mellanox，现在就有了 InfiniBand。现在他们建议更老的数据中心用 InfiniBand,这样就可以提高计算的 Flops，因为网络才是最大的约束，你可以说这是优化。你可以说找到不同类型的算法是优化，运行不同矩阵的东西，运行更多的dense 模型，都是不同的优化。因此，有很多优化的可能。但是，云成本或其他成熟领域的东西，更多的是，AWS 运行了这个工作场所，建了一堆日志，让我为你绘制出来。而在这种新的领域，有时候你会看到成本节约非常大，只是因为运行某种算法的方式不一样了。我想这是因为一切都还处于早期阶段的原因，我认为它会持续一段时间。

其次，我认为有很多 AI/ML，无论是业务模式还是技术进步，都与生物研究非常相似，就像这个迭代过程，你有数据，你有模型，你有代码，而不像软件开发可以通过捷开发的方式，明确地说这是我编写电子邮件应用程序的方式。所以你有这个迭代的过程，所以有更多的系统性的机构知识，我敢肯定随着时间的推移，你会建立一定的原则以更快地运行和部署这些 ML 应用，更快地跟踪一切，这样你就可以更快地得到结果，更快地知道出了什么问题，更快地进行迭代。但是，我认为没有一种方法可以有明确的对错。

Hanlin Tang

是的，回顾一些训练运行出了什么问题是很难的。我认为另一个被低估的因素是，GPU ，算法等等有很多复杂性。如何隐藏这些复杂性，让用户感觉好像它可以正常工作；以及如何与用户建立信任，让他们可以接受你隐藏这种复杂性？

我认为我们带来的很多价值就在于我们与社区和客户建立了这种信任。当客户来与我们一起训练 LLM 时，我们会交给他们一个看起来非常复杂的配置，但我们告诉他们，实际上，我们正在向你们展示所有这些，但你们实际上不必调整 99% 的配置，不可避免地，很多客户都相信我们。有些人会说，好吧，但我确实想尝试一些不同的做法，他们这样做了，然后跟我说，Hanlin，你是对的，你们设置的默认值是有效的，让我们开始吧。

这种信任很难建立，我必须小心翼翼地与每一位客户一起，确保我们的产品仍然可以正常工作，配置仍然是正确的。

Casber Wang

这一点很有意思。现在有很多 serverless （无服务器） ML Infra ，因为它们非常容易启动。我总是担心监管风险。就像我们在云中看到的那样，我个人认为，客户只想知道你到底在做什么，你会从 Infra 的角度采取什么意见，以便我可以回去以更便宜的价格运行它。你说的很对，起初，你可以提供一个全手动的东西，但是你只需在这个平台上基于你（服务提供商）的建议搭建应用，这对人们可以更快地获得价值非常有帮助。但是随着时间的推移，我认为，随着这些应用变得实际上变得成功和有用，你实际上想向人们展示更多的黑盒子。

Hanlin Tang

对的。我认为其中的一部分是向人们展示更多的黑盒子，或者在无服务器情景下，需要创新，带来更多的东西，因为仍然有很多可以从系统中挤出来的东西，即使在客户投入生产之后。我认为这对于许多无服务器公司和 API 来说都是一个挑战。我们也有一个无服务器推理 API ，它是我们的入门套件。但是我们需要不断创新，保持突出，保证我们在前沿。

Monica

在构建您的平台时，您已经能够标准化了哪些内容，而您仍然发现哪些内容很难标准化？

Hanlin Tang

我们已经达到了一个阶段，我们在内部开玩笑说它有点像一个 LLM 自动售货机。就像投入token，然后输出 LLM 。我们有一些客户已经在我们的平台上进行了 30 天的训练，他们只是自助服务，自动管理，有时我甚至忘记了有一个训练在跑，因为平台一直跑得很顺利。所以我认为我们在这方面付出了很多努力，使其非常流畅和标准化。

我认为在整个过程的开始阶段，仍然存在一些比较手工的数据筛选部分，这是一个更加工匠化的过程。比如说，我应该在我的模型中放入多少 Wikipedia 的数据？应该是 30% 的 Wikipedia 吗？我应该放入这种语言还是那种语言，或者放入更多的语言会对我的主要语言有害吗？这更多是一种工匠化的、未知的科学和工程学。但这也是我们非常兴奋要解决和标准化的问题。但一旦客户在我们的指导下获得了他们的数据集的正确设置，整个培训过程基本上就是标准化的。

Monica

Casber，你有没有看到任何初创公司在构建标准化产品中取得了阶段性成果？

Casber Wang

你可以看看一些更成功的 ML 平台公司，我认为 HuggingFace 在某种程度上可以说是一个成功的模型注册业务，其他部分我们还要看看它是如何运作的。

但从发现的漏斗角度来看，这是相当标准化的：你想要找到一个新模型，你想要尝试一些新的想法，那在很大程度上就是我们将在 HuggingFace 上尝试的方式，然后他们转向 AWS，那是一个不同的问题。Huggingface 如何阻止这种情况发生？但这个过程带来了很多价值。这就是为什么我认为一些投资者从这个角度看到了很多价值。Weights & Bias, MLFlow 等等，某种程度上解决了开发环节中的追踪问题，你可以看到非常好的可视化体验，并看到你要解决的问题类型。那是一个非常标准化的过程，因为对于 ML 人员自己来说，当他们考虑进行迭代时，如果我的仪表板不好看，或者如果我的仪表板速度较慢，等等，那实际上会影响我的开发速度，所以这是开发体验非常重要的一部分。

这是相当标准化的。但是我认为会发生的事情是，随着人们在生产中部署更多的模型，我们将看到生产边缘需求和需求的上升，对于使用生产边缘工具的需求可能不会同时出现，它是非线性的。

你会看到不同的人思考用 Build 还是 Buy 的模式，就像我告诉你的，我已经与一些非常大型的公司交流，这些数百亿美元的上市公司想要建立自己的 LLM ，因为这在董事会会议上听起来很不错：我有我的比较优势，而不是依赖于 Microsoft OpenAI 或 Anthropic 等第三方供应商。但然后你开始思考权衡的问题，如果你构建了这个模型，你需要投入多少资金？维护这个模型要多少资金？将模型卖给客户是否不同于销售应用程序？所以你必须雇佣不同的销售团队……所以我觉得这部分仍然相当早期。

我觉得 MosaicML Hanlin 正在正确的方式上做这件事:就像保持灵活性一样，但分层，你可以从标准化的角度剥离一个薄薄的层次，并捕获该平台的价值，不断这样做。如果客户想使用某种类型的工具，你应该给人们使用的灵活性，而不是说你必须在 MosaicML 上使用一切。

Hanlin Tang

当然。

Monica

你是说，那些大公司正在考虑从头开始构建他们的模型，甚至是预训练模型等。

Casber Wang

这是我认为人们尚未完全理解的问题，他们可能希望从零开始构建，也可能希望从预训练模型开始，也可能希望尝试其他方法。但我可以告诉你，主要的观念，这是完全有道理的，对吧，就在会议室里，人们会说，我们有所有这些数据，我们是 HR IT 的系统记录，这是真的，顺便说一下，Workday、ServiceNow 等大型企业都在运行它们，所以他们拥有所有这些数据。对于董事会成员来说，为什么我们不使用这些数据，为什么我们要将其返回到 Databricks 或 Snowflake ，然后要求他们使用其他工具来使用，目前正在进行这样的讨论。你说的对，他们正在考虑这个问题，百分之百，他们如何在这种新模式下捕获更多的价值，但是这还处于早期阶段。

Hanlin Tang

随着时间的推移，看到这一切是如何发展的真的很令人兴奋，我们看到许多企业也在进行这些讨论。最终归结为你的竞争模式是什么？如果真的是你的数据，那么你训练自己的模型或者采用开源模型、并继续训练它或者将模型或数据融入到你的系统中可能是有意义的。它是活跃的。真的很高兴看到这个领域如何发展。

Casber Wang

而且它是如此复杂。

Hanlin Tang

有太多要考虑的方面。我认为幸运的是，不管你选择哪条道路，投资成本都开始下降了，无论你选择哪种方式，我们都看到大多数企业实际上在购买和构建方面都有试点，因为他们希望分散风险，因为可能会出现特定的应用场景，或者可能会更合理。然后由供应商来证明，那个特定的产品实际上是成功的，是有意义的，是的。

Monica

尤其是如果我们可以真正利用更多的资源，以降低从头开始训练模型的成本，将训练成本降至不到 1000 万美元。对于所有那些财富 500 强或财富 100 强公司来说，这并不是一个大笔钱。当然，他们拥有所有这些专有数据，但是，你更愿意教一个有博士学位的人，也就是 GPT-4 这样强大的 LLM，还是更愿教一个孩子，就是企业自己训练的较小的专用模型，来做人力资源管理呢？

Hanlin Tang

这真的取决于最终的用例。我们已经看到许多用例，客户将通过使用闭源 API 来开始试点，发现表现还不错。然后他们试图将其推向生产，然后他们突然发现，这花费了这么多钱。哦，我的首席安全官正在向我施加压力，我不能导出我的数据。因此，这不仅仅是模型的能力，有时更多是考虑部署场景，以及最终用例的复杂程度。

Casber Wang

我也认为这在一定程度上取决于我们如何从今天的角度来看最终的用例，就像你在这里看到的，我想说，最积极的在这个领域投资的第三方非 LLM 供应商，Microsoft 肯定是其中之一。因为他们有很多 Copilot 的应用案例，比如，你用 Outlook 写电子邮件，同一个组织中别人也有，很容易就可以把这个增值功能卖出去，现在 Office Copilot 定价是每月30美元。我不知道这些需求有多真实，这个 upsell 路径很直接。

另一个例子是 Adobe Firefly ，如果我要使用 Adobe Photoshop，如果我可以点击几下按钮并添加一些图像，那就是一个非常容易实现的事情。而某些其他公司的情况下，投资回报率 (ROI) 不是非常直接。再回到我们的生物研究类比，如果你是一家大公司，而且你是 AI/ML 的SVP，你是希望使用开源模型与 MosaicML 数据库合作并获得一些快速的投资回报呢？还是希望自己构建模型，祈祷产品未来能够赚钱？

就像我说的，这不仅仅是技术决策，我认为它也是一种组织性的人性决策。因为如果我要立一个flag 说，我要投资数十亿美元在ADML上，第二年、第三年，我的模型准备好了，但没有客户需求，那就是一件大事。我可能会失去工作，所以，我认为大部分企业不会那么轻而易举地支持这样的决定。

Hanlin Tang

而且很多客户都在探索这些问题。他们通常会从训练一个较小的模型开始，因为他们不想花费百万美元来训练大模型，然后突然发现没有使用场景。小步快跑的方式，随着时间的推移，你会看到投资回报率增加，这将使你更有信心迈出下一步。

Monica

我们的确看到很多大型的 SaaS 公司，使用GPT API 构建他们AI功能的第一个版本，同时另一个团队构建自己的模型，开源模型的发展会为公司提供更多选择。

最后，我们要更具前瞻性地看待这个领域。Hanlin 你随着收购加入了 Databricks ，所以你的新角色会关注什么？我们可以期待从 MosaicML 和 Databricks 合作中看到什么变化？

Hanlin Tang

我的角色保持不变，我们的使命保持不变。我们的使命是赋予企业构建模型的能力，不管他们是选择采购还是自建路线。我认为即将发生的令人兴奋的事情是，能够与现有的 Databricks 客户和他们的数据源无缝集成，将使这条路线变得更加容易。你提到了 Adobe Firefly，我们要做的就像如果你在数据库平台上，有一个训练按钮，有一个微调按钮，非常容易使用，提供良好的结果，使客户能够轻松基于这些数据进行实验。

另一部分是，我加入 Databricks 了之后意识到，原来在 MosaicML，我们专注于模型本身，而把应用和部署交给了客户端，但加入 Databricks 后，我认识到了除了模型权重之外还有多少其他组件我们需要关注。比如，我们需要构建ML 在生产环境的管道，同时，你还有矢量数据库。还有监控系统、成本监控系统，还有数据治理和数据压缩等等。

因此，对我来说，看到这些组件真是大开眼界，所以非常兴奋能够整合并提供整个堆栈的统一体验。因为客户不希望从五个不同的来源购买所有这些不同的组件，并进行集成工作以将它们连接在一起，你希望的是一个统一的东西。我猜我们在这个播客中经常使用这个词，所以可能有点滥用，但在端到端连接的确是一个好的方式。

Monica

作为一名投资者，看到这一起13亿美元的收购，当然是好事。再次恭喜 Hanlin。Casber 看到这个消息是什么反应？这对初创公司意味着什么？你从中得到了什么启示？

Casber Wang

除了非常遗憾没有投资 MosaicML 之外？哈哈。首先，我想说，当之无愧的祝贺，我认为，对于创立 Mosaic 的时候，你肯定没有坐下来说，第2.5年，我要花这么多钱，这可能还没有发生，我认为你当初是为了解决一个真正的客户痛点，一路上看看这个平台会发展成什么样。所以对我来说，作为一名创业者，这是我想要合作的时机。不是在某个时间点，AI 现在非常火热，所以让我们快速开发一些东西。事实上，我认为这种策略在更多的情况下，适合做一个 lifestyle 的小而美的公司。我认为整个 LLM 使得创业的门槛降低了很多。以前我们添加应用程序的东西，你只需将其放在应用商店上，然后每月收费2美元之类的费用，门槛已经大大降低。但在另一方面，我认为传统企业软件的创业门槛实际上在我看来已经上升了。

你想想所有的现有厂商，比如 Microsoft 等等，但也包括更大的初创企业，每个人的注意力都集中在这里，所以他们会思考如何整合所有这些东西。如果你的提案是，我要启动下一个 Salesforce ，然后自然的压力就是，那么 Salesforce 做的 GPT 是怎样的？他们正在做什么，你做的会有什么不同呢？所以在某种程度上，我认为在AI应用上，要做一个持久性项目的门槛实际上上升了，而不是下降了。但是启动小项目的门槛降低了。所以你有这种非常有趣的分化正在发生，这是我的第一个思考。

我得出的另一个结论是，非常重要的是要知道你是作为一名创业者在玩什么游戏，我不是用消极的意义来说“玩游戏”，而是用积极的意义来说，比如你正在玩什么市场，你的策略是什么。对于 Mosaic 和 Helen 团队来说。

我认为，正如你早早地说的，你是有明确的商业化目标的，但是很多时候，尤其是Seed Sage，很多公司只是在想，我有这个酷炫的项目，让我试试吧？但重要的是，不一定是后期的商业模式，而是要想清楚，你可能在技术堆栈的哪个位置。我认为这第二次和第三次的创业者的经验，你知道比如要使用基于用量的定价，要想办法跟计算结合起来。有这种感觉非常重要。

其次，就是要知道随着时间的推移，这个业务是否还可行。我会花很多时间与一些 GPU 公司交流，我感到困扰的一件事是，我肯定除了 Google 和Microsoft 之外，还有一堆云供应商，比如还有 Digital Ocean，还可能有一两个其他的云供应商。但是，你是否知道 GPU 供应商会发生什么情况？你的长远规划是什么呢？所以我会看创业者是否考虑不仅仅是在未来六个月内内的业务，而是想到未来两三四年，考虑到生成式 AI 将如何改变我们的工作流程和生产力，未来会发生什么变化，而不仅仅是，嘿， GPU 短缺，所以我现在可以通过倒卖这些资源赚钱。

Monica

当然，我们希望创业者一开始就把一切都弄清楚，这是一个完美的 pitch，简单的投资决策。但回顾一下，Hanlin 你在创业初期与现在相比，对创业和这个行业有哪些看法发生了变化？

Hanlin Tang

我认为回顾过去，我想在 MosaicML 的两年半的旅程中，我们始终关注的一件事是解决一个艰难的工程问题，然后考虑商业化企业的建设。比如，我们在安全性和在客户自己的环境中部署方面投入了很多资源，因为我们知道，至少作为一个不受信任的初创公司，这将是一个问题。而且我们实际上在这个决策上挣扎了一段时间，因为这延迟了我们的推出产品的时间。构建 Infra 并不容易，所以这是我们采取的一种策略，我认为对我们来说效果很好。

我认为回顾时的另一个挑战就是所有的 FOMO 和炒作。你看到了这种风格，你需要一些心理素质来忽略它，只专注于客户和客户的问题。至少对我来说，一开始有点困难，因为你听到了所有这些事情，比如，又一个模型，又一个系统出来了，但学会忽略这些对公司的关注非常重要，同时也对我的精神健康非常重要，否则你就会完全失控，你可能会开始频繁地改变方向，这是我在 MosaicML 的经历中学到的两个原则。

Monica

非常感同身受。最后一个问题，在过去不到一年的时间里，有哪些你认为对你对 LLM 这个领域的理解产生了重大影响的关键事件？展望未来，有哪些关键事件可能会改变你对整个 LLM 领域的看法？

Hanlin Tang

这是个好问题。我认为，展望未来，我会说，正如我所说，每个人都处于创造性的探索阶段。不清楚哪些实际上会进入生产阶段。不清楚哪些实际上可以满足用例、幻觉和法律担心的标准。因此，我期待在接下来的六到九个月内解决这些问题的技术。因为每家公司都处于这个阶段，他们在公司内部正在进行一些 LLM 应用原型的开发，他们的 CEO 可能正在使用它，并希望弄清楚，这是否是一项真正可以交付的东西？我什么时候可以删除这项服务中不符合事实的幻觉？

这在如今的每个 Gen AI 应用程序中都存在。一旦出现能够开始解决这些类型问题的技术，这将是我认为这项技术性质的转折点。如果这些研究无法减少幻觉、法律或伦理问题，那么实际上将极大地限制了这个领域的可能性。突然之间，每家公司都只剩下了三个左右的潜在应用。

所以我们实际上正处于一个非常重要的转折点。看看未来如何发展将会是一项具有挑战性的任务。

Monica

有趣的是，你没有提到任何具体的技术。

Hanlin Tang

具体的技术会来来去去。我不知道，长期来看，比如，有很多有趣的研究是如何培训专门用于检索的模型，而不是采用现有的模型，只是将从矢量数据库中检索的某些内容放到 prompt 里面。我认为这是下一个阶段，这种技术可以显著提高 LLM 应用的可用性。

Casber Wang

我会说，一方面我会关注的点与 Han 提到的，但再深入一层，那就是 Microsoft Copilot 和 Adobe Firefly 的商业反应究竟是什么？因为它们以很大的风头推出，所有这些第二波参与者和绝大多数在投资于AI/ML的人，将会比仅仅进行实验更加积极地投入。因为如果有真正的收入，也就是说，你、我、Han愿意每月支付 30 美元那么就会创造真正的收入，那就是非常真实的一大笔收入。现在发生的事情是，人们在押注AI将会创造真正的需求，因此开始大量购买芯片，Nvidia立竿见影地受益了。有一些公司只是为了AI 而去推销 AI，因为不想错过。如果 Microsoft Copilot 产品的推出后的收入不像预期的那么好，然后人们对收入预期下降，你会很快看到这个领域的的价格纠正。

当然我认为长期来看，技术创新并不总是有一个直接的路线。从线性的角度来看，AI将极大提高生产率，问题只是如何将它转化为真正的美元。时间线也非常重要。它是短期的，还是长期的。我认为我们已经看到了 2021 年的软件繁荣，开源，区块链的繁荣来了又去了。我不知道上一次是什么时候，所以我们谈论 Web3 的时候感觉已经有一段时间了。但是我认为 AI 更持久，如果你有一个更长远的时间视野。只是没有人知道短期内杀手产品看起来像什么。我的意思是，大多数媒体和风险投资公司在 ChatGPT 推出之前并没有那么关心 LLM ，所以我期待的是，有哪些商业里程碑可以从这里推动整个生态系统？

Hanlin Tang

还有一个非常长期的代际效应，那就是年轻人实际上是在这种技术和这种界面上长大的，这会使它自己巩固下来，如果你想象一下 10 年后，学生正在使用 ChatGPT 或者大学的电视使用 ChatGPT ，他们可能永远不会放弃这种类型的界面，因为他们已经习惯了这种信息检索和查询方式，无论在短期内商业化如何发展，这都将在长期内保持下去。

Casber Wang

我会说这可能是长期的机会，如果我再把它拉得更接近现实生活，我记得当我们看着 Figma 时，其中一个最大的担忧和反对意见是，嗯，设计师并不多，这是真的，但 Figma 的做法是将一些传统上不是设计师的人引入到设计工作流中，因为它非常容易使用。最后，它的用户远远超出了那些传统设计师，因为它的用户可以轻松地加入到设计工作流中。猜猜看我花了多少时间在 Midjourney上，偶尔会有一些 10～15 分钟的时间，我肯定有更加好奇的人在使用这些工具。

再次强调一下，也许 Midjourney 和企业工作流之间没有一一对应的关系，但是可以押注的是，这样的工具使得那些传统上不在该领域的人进入这个领域，原来不做设计的人开始做设计，原来不会编程的人开始编程，原来不会 AI/ML 的人开始进入AI ML。他们可能不总是最核心的使用者，比如那些能流畅使用 Adobe Photoshop 的人，但这些人的出现带来了真正的生产力。

至少从更长远的角度来看，我认为让那些传统上不在该领域的人进入一个新的领域，是一个巨大的助推力。只是不太容易立即衡量它的影响。

Monica

这让我想起了我总是和 FlowGPT 的 CEO 聊天，他们正在构建一个使用 Prompt 的平台，他说，这个平台上的大多数用户都是 16～20 岁的人，但他们几乎不会编程，或者只有很基本的编程技能。但他们已经能够在上面构建很多端到端的软件，当然，不是非常复杂的，但你可以看到，自从他们今年年初刚开始以来， Prompt 的平均长度已经翻了一番还是翻了两番。所以我在想，对于 12～15 岁的孩子们，如果他们刚刚开始学习如何编程，他们可能第一个使用的编程工具就是 ChatGPT ，学习如何使用 Prompt ，这可能会改变很多事情。我不知道你们是否有孩子，我们已经生活在这个传统的世界里几十年了，但对于他们来说，与 ChatGPT 或机器界面聊天可能会很自然，他们可能会更有耐心。

Casber Wang

即使是智能手机的使用，你想想，触摸屏。

Monica

对于孩子来说，每个平面似乎都应该是触摸屏。我在想，也许在这一周之后的一两年内，我们可以坐下来回顾一下，看看我们的预测是如何被验证的。这对于投资者来说是一个挑战，但也是令人兴奋的。

Casber Wang

我总是和我做二级市场投资朋友们谈论，他们整个投资都是基于 AI 的主题，每个季度根据公司是否推出了 AI 产品来做买卖的决策。他们认为，天啊，你的工作肯定很难，因为你没有流动性，因为作为一级市场投资人，我只能买入并持有。但我认为持有的美丽之处在于，如果你的思维太过关注下个季度甚至明年会发生什么，你就无法获得更长期的复利效应。可能在中途会发生一些神奇的事情，我并不是说每次投资都必须这样，都会发生完全不同的事情，有些也会更直接的产出——但我认为在机器学习领域，我说的这种累积效应，一些神奇的事情正在酝酿中。也许没有短期结果，没有实时反馈，但有一天你会发现这种神奇的事情发生了，拥有时长和耐心也会产生非常好的结果。

Monica

谈到耐心，我想到一个问题。如果你们有一台时光机，你们可以前往不久的将来，比如五年，那么你们会想要问周围的 AI 领域的人的第一个问题是什么？

Hanlin Tang

Transformer 架构何时被淘汰成为过去的事情？

Casber Wang

我可能会说同样的话。这很有趣，因为我认为人们认为 Transformer 架构是理所当然的，但事实上，如果你看看历史上的发现和一切，它就像是突然出现的，当然之前有一些研究和尝试，但 Transformer 并不是一条线性的道路，所以我认为这是一个很好的问题。我唯一的问题就是，除此之外，你们使用的是什么硬件，是 GPU 还是 TPU？

Monica

很棒的问题！我真的很享受这次谈话。非常感谢你们的时间。

Hanlin Tang

不客气，谢谢你的邀请。这是一次很棒的讨论。

Casber Wang

谢谢，Monica，非常感谢。