5亿美金估值,TikTok想“消灭”它,最会赚钱的AI应用凭什么?

关注
两天时间开发,成功的关键是抓住了痛点

编者按:本文来自微信公众号 硅兔赛跑(ID:sv_race),作者:硅兔君,创业邦经授权转载。

a16z 发布的 2025 年全球 100 大 AI 消费级应用报告中,Captions 被认为是最会赚钱的 AI 音视频应用之一。

凭借 AI 生成 3D 虚拟形象、AI 剪辑、AI 对口型等功能,Captions 在 2023 年实现快速增长,仅移动端下载量就超过 1000 万次。

2024 年 7 月,Captions 获得了 Index Ventures 领投,a16z 等跟投的 6000 万美元 C 轮融资,这轮融资后,它的估值达到 5 亿美元。据第三方数据,其年营收估算高达 900 万美元。

Captions 目前的用户数量超过了 1000 万(大部分是创作者),月活用户达到 300 万,而且这些用户中很大一部分是付费用户。在获得这些成就的同时,它的团队成员还没超过 100 人。

图片

最关键的是,Captions 的竞争对手是 CapCut(剪映国际版)。

Captions 的创立源于创始人 Gaurav Misra 领导 Snap 设计工程团队的经历。期间他见证了社交媒体视频的演变——从 TikTok 到 Instagram Reels,再到 YouTube Shorts。他注意到"口播视频"这类创作者直面镜头的新形式正在崛起。2020 年,Misra 离开 Snap,与辞去高盛职务的前同事 Dwight Churchill 共同创立 Captions。

最近两位联合创始人 Gaurav Misra 和 Dwight Churchill 接受了著名科技播客 Colossus、Lenny 的采访,就 AI 应用如何寻找 PMF、如何做产品增长与功能迭代等进行了深入的探讨,Founder Park 对两期播客进行了编译处理。

两天时间开发,成功的关键是抓住了痛点

Colossus:谈谈你们为什么选择在那时(2020 年)开始,业务是如何发展的?

Gaurav:我们创办公司时,第一个推出的应用就是 Captions,它是一个为内容创作者打造的视频创作平台。

我之前在 Snap 工作过,Snap 曾多次尝试过类似的事情,但都不算成功。视频编辑器的商业化程度很高,你能做的创新几乎都来自尽可能压低成本,要在这一领域竞争确实非常困难。

我们最初的想法是通过 AI 来辅助创作视频,利用这个差异化点,人们才会选择我们。我们发现市场上有语音转文本的需求,那时这个技术已经相当成熟,但普通人并不了解它的精准度有多高,尤其是在处理专有名词和一些冷僻术语时。

所以,我们的第一个产品,核心功能其实是「自动给视频加字幕」,它是用一个周末的时间临时拼凑出来的,然后我们就把它放到了 AppStore 上。当第二天早上醒来,发现它已经冲到 AppStore 榜单的顶端了,而我们没做任何宣传。我醒来后,给 Dwight 发了一条短信,「现在每分钟人们用这个应用制作 600 个视频。」

这几乎是一个瞬间成功的故事。但即便是在周末短短两天的工作中,我们也将应用设计得足够好,以便能持续收集数据,并且通过这些数据不断训练更好的模型,来提供更优质的用户体验。

从第一天起,我们的计划就是:这是一款 AI应用,用户使用时,数据会用来不断改进模型,从而提升用户体验

随着时间推移,我们为应用加入了更多的功能,涵盖了从脚本创作到录制、视频编辑,再到视频分发的整个领域;AI 在所有环节中都发挥作用,而这些环节中都有数据可以收集,用来改进模型。

这正是我们的独特之处,因为其他公司并没有像我们这样注重数据收集,更多的是只关注生成输出。因此,他们不得不从互联网上抓取数据来提升他们的模型。而我们更注重的是通过扩大用户基础,让数据能支持模型更好、更精确的发展。

通过将视频数据直接输入到视频生成模型中,为我们带来了显著的优势。我觉得这种模式类似于 Facebook 或 Google 的商业模式——提供一个免费的大众消费产品,而数据则被用来推动 B2B 付费产品的发展。

Colossus:过去,分发渠道通常非常贵,但当工具变得好 10 倍、甚至 100 倍时,分发可能会相对容易,我认为你们就是从中受益的一方。看到收入、用户以及这一切快速增长是什么样的感觉?

Gaurav:对于任何做产品的人来说,我觉得没有什么比看到「我做了一件事,第二天就产生了影响」更激动人心了。我认为我们能做到这一点是因为建立了一个优秀的团队,吸引到很多优秀的人才,这使我们有了成功的基础。

但对我来说,最有趣的部分也许是,你看到市场上的全新领域被解锁,而这些领域目前没有任何竞争者

正是这种情况导致了快速的增长:我们在一段时间内是唯一可以做某些事情的公司。随着更多使用场景的解锁,竞争会逐渐增多,但那可能是几年后。

至少现在,我们看到的现象是:我们通过解锁更多的使用场景,激发了新的市场。到目前为止,我们认为已经解锁的市场还只是 1% 到 5% 的范围。随着市场的增长,更多全新的领域会被打开。

是的,他们完全愿意付费,他们蜂拥而至——我们甚至不需要推销它,而我们是唯一的选择。这样一来,增长会非常快。我认为,这可能是我最兴奋的地方。

TikTok 多次想「消灭」我们

Colossus:你感觉你们现在和其他公司之间处于军备竞赛中吗?

Gaurav:在某种程度上是的。很多新公司都在出现,大家都在做相同的事情。举个例子,我曾在 Snap 工作,而有其他五个人也从 Snap 离职,尝试创办同样的公司。

但我喜欢这一点——因为从某种意义上来说,大多数人都在模仿我们,这其实是个好兆头,说明我们做的事情是对的。我们尽量避免过多关注其他公司。我们的产品策略和我们构建的东西,完全是由我们的使命和愿景来决定的,而不是看别人怎么做。别人可能根本没有一个完整的战略。

我们的重点是专注于我们的北极星,无论是从技术角度,还是从产品和用户体验的角度。我觉得这才是最有趣的地方。什么时候我们能有机会从底层到顶层,重新发明整个技术栈,甚至包括硬件层面的创新呢?

比如说 NVIDIA 驱动中的 bug,还有硬件层面的一些问题。我们有机会从根本上重新发明用户体验——人们将如何与这些东西交互。我觉得很多人还没有意识到这一点。大家只是把模型拿过来,放到 UI 上,然后让用户「按一下按钮,输出结果」。

如果它有更多互动呢?如果你能看到生成过程中的每一步,或者在生成过程中进行预览,并根据自己的需求实时调整呢?还有很多未解锁的潜力。无论是设计师了解技术,还是技术人员学习市场营销,这个领域的演进和整合将会更加深刻。这就是我们专注的方向。

Dwight:我认为军备竞赛的核心在于,我们要确保提供的产品远远超出客户今天的需求。每当我们发布新功能时,它都会在第一天就直接投入商业化使用,而不是先与一小部分人测试,看是否真的解决了问题。我们是在为他们的工作打造这些产品。无论是大企业还是免费的消费者,我们都深度融入他们的工作流程。

最终,正如 Gaurav 所说,通过重新发明设计模式和用户与新模型互动的方式,我们在铺设未来工作方式的道路。这就是我认为的军备竞赛,但它并不仅仅是与其他公司之间的竞争。

Colossuss:当一个公司被别人当成「敌人」时,它就进入了某种成熟阶段。你们是如何应对这个的?

Gaurav:当然有。在这种情况下,我们通常会说,「我们只管自己的使命,不去担心别人做什么。」但是很多人确实关心我们在做什么。我们处于一个竞争与合作并存的位置,和很多社交网络都有合作关系,因为我们对它们的增长有帮助。

我们创造内容,而所有社交网络都需要内容。当 Instagram 推出 Reels 时,它们的大部分内容搬运自 TikTok,带着 TikTok 的水印。但在我们的平台上,我们每天生成成千上万条没有水印的内容,这些内容会被上传到社交媒体。

我们最终成为了许多社交网络的有价值合作伙伴。从这个角度来看,我们看到了社交网络格局的变化。很多风险资本家会问:「如果 Facebook 抄袭你们怎么办?如果 Google 抄袭你们怎么办?」我认为我们开始看到的现象是,Google 和 Facebook 不再是抄袭公司了;现在 TikTok 扮演这个角色。

TikTok 成了 Facebook 曾经的模样,在每一个市场中「捕捉、消灭、摧毁一切」。

他们的领导层非常清楚我们的存在,并且他们曾多次尝试「消灭」我们。值得肯定的是,他们是第一个意识到我们存在的公司。

Colossuss:他们试图「消灭」你们的表现是什么样的?是单纯地抄袭产品吗?

Gaurav:就是字面上的抄袭我们的 App Store 描述、我们的网站,把这些内容一字不差地放进他们的新闻稿,精准复制我们的品牌色,假装是我们。竟然有这么大的公司采取这种策略,真是疯狂。

但归根结底,他们创造的软件是平庸的;它之所以有效,是因为他们通过 TikTok 拥有了强大的分发渠道。我认为我们会胜出,因为我们有更好的产品。

MVP 模式,每周都有产品迭代

Lenny:作为 Captions 的领导者,面对各类热点不断,有没有新工具、流程或方法,来帮助大家持续保持专注,避免被每一个新奇事物吸引干扰,从而真正把产品做出来呢?

Gaurav:这关乎渐进性。我们目标就是每周推出产品工程上要求每位工程师每周推出有市场价值的产品——展示给用户,他们可能仅凭这个产品就订阅、付费或者使用应用。

像文字处理器里自动排版、文本对齐这种基础功能,其实不会吸引用户使用产品。但如果是独特的功能,就算应用里缺少常见功能,用户也会因为独特功能而使用应用,比如忽略它的文本对齐,只是为了使用你在产品中打造的这些新工具和新功能。所以我们力求每位工程师每周推出一个这样有市场价值的功能。

当然,很多功能可能并不奏效,但也有不少有效。对有效的功能,我们加大投入开发。人们常抱怨产品刚推出时不完善,确实,我们推出的是极致精简的最小可行产品(MVP),删减设计直到产品保留最核心的可用性,然后我们把产品推出。

如果一切顺利,人们会使用这个产品,尽管它可能存在各种问题。然后人们会抱怨,我们就会得到一长串问题清单,这样我们就明确下一步工作方向。所以,这就是一个起点。只要每周推出产品,就会有大量功能、产品及发展方向涌现,之后舍弃大部分,仅对保留的部分进行拓展。这种方法非常有效,能让团队保持专注。

Lenny:对很多公司而言,要求每位工程师每周推出有市场价值的功能或产品,听上去会让一些人感到压力巨大,可能也有人觉得这正是理想的工作方式、是公司应有的产品打造模式。那你们如何确保质量,让所有产品保持连贯一致呢?

Gaurav:大多数时候,质量是不能妥协的虽说在质量上存在战略性妥协,但通常得设定质量标准,功能应该是可用的。人们常犯的错是,时间紧迫时,工程师、产品经理、设计师倾向降低质量标准,而非缩小产品范围。

我们采用的方法是缩小产品功能范围。审视每个需要花费时间来开发的元素,想想去掉它,产品还能用吗?重复这个过程,直到去掉所有可去的部分,当再去任何东西产品就无法使用时,这便成为了一周的项目。

这种方法真的很有效,它能让你聚焦于你真正想要实现的核心内容。比如开发视频添加图片的功能,常规设计流程可能包含从相册导入、去背景、调色调饱和度等。但其实可以去掉背景去除、色调饱和度调整等额外功能,只保留核心的从相册选图并添加到视频的功能就够了,可能只是需要一个包含很多选择的选择器,可以从云端甚至硬盘获取图片,没有 UI 也无妨。

如果这个核心功能不可用,基于它构建的其他功能也没有意义,这就是我们开发产品的方式。

Lenny:最后一句话对这个过程至关重要。这是在你对某件事投入大量精力之前,先推出小的迭代功能的核心思想,目的是先弄清楚这个功能有价值吗,它值得花几周时间去开发吗?

Gaurav:完全正确。这种方法最棒的地方在于,用户使用产品后,最先抱怨的就是最困扰他们的问题。是色调饱和度、背景去除,还是从云端选图方面的问题?你会收到关于这些方面的最多抱怨。我们会觉得很好,因为人们直接指出问题,比如「这功能太糟了,连背景去除都没有,算什么图片添加功能」。收集这些反馈后,下周更新时就能推出用户抱怨的功能。

Lenny:这样一来,用户就会感叹:「哇,这团队更新速度真快,对我的问题回应太及时了!」用户对产品抱怨,往往是产品与市场契合的常见迹象,因为抱怨意味着他们在意产品,所以说有人抱怨其实是个很好的信号。

Gaurav:非常正确。如果没有人抱怨,那就意味着一个危险的信号。

Lenny:我非常欣赏每位工程师每周推出有市场价值产品这个方法,这和我们开头讨论的如何在众多产品中脱颖而出直接相关。答案之一就是不断推出产品,持续惊艳用户,比如推出超棒的新视频功能,吸引大家目光。

Gaurav:没错。我认为这绝对是关键,而且有足够的空间和范围来实现这一点。在正常时期,可能无法如此迅速地制定出这么多产品规划。但我认为,由于背后有如此多的创新,所以才有这样的空间,产品规划似乎是无限的。

Lenny:你们的工程师在多大程度上使用 Cursor 等工具,AI对你们的团队有多大帮助?

Gaurav: 100%! 每个人都在使用,非常有用。而且我们还在使用 Devin,它更高级,可以解决漏洞问题。

Lenny:Devin 的成本是每月 500 美元,就像在 Slack 上与 AI工程师聊天。你认为这种 AI 管理者的层级结构会取代传统管理吗?

Gaurav:没错,未来可能会有多个 Devin 协同工作,甚至有专门的管理者来管理这些 Devin。

Lenny:我在设想,管理者层级结构会逐渐被 AI管理者取代,这将是最终的变革。

两条产品路线图:公开和私密的

Lenny:在你们运营、打造产品的流程或架构方面,还有哪些独特、有趣且值得他人借鉴学习之处呢?

Gaurav:我们的产品开发流程很有意思。有设计、产品经理团队,这俩还处在初创阶段。还有工程团队,涵盖 iOS、安卓、网页端、后端、机器学习、研究等领域。开发产品时,通常会采用产品经理主导的方式,先明确要解决的问题、涉足的新方向,然后制定产品规格说明书;有时则相反,在情况不确定的情况下先设计很多不同的内容,再与产品经理探讨并且审视这些设计,挖掘有趣的想法,这常能发现仅关注指标和数据难以察觉的东西。这就像是把流程颠倒了一下,但往往容易找到独特的想法。

在制定路线图方面,我们也很独特。一般公司只有一个路线图,我们却分为两个不同的部分。公开路线图收集用户反馈,梳理功能需求,比如背景去除、撤销重做、上传长视频功能等等,依据影响人数、市场规模等因素排序,按计划逐个实现。但这些功能是竞争对手也都知道的,需求是公开的,难以凭借这个取得决定性优势。

所以我们还有秘密路线图,上面的功能是从来没有人提过需求的。给用户展示,他们可能表示不需要,不会用。但这是基于我们对问题、用户群体和技术的独特理解想出的创意,是真正能改变用户使用产品方式和行为习惯的创意。人们一直用一种方式做事,如果我们能向他们展示另一种方式,并且一旦他们尝试了就再也回不去,这就是一款成功产品的意义,这就是成功。

我们把这类创意放在秘密路线图里。这些内容我们从不公开讨论,也不会告诉任何人,我们直接宣布并把它们呈现给用户,然后观察效果。全公司每季度头脑风暴产生这类创意,涵盖各个团队。大家提出想法后投票、排名,产品团队再考量可行性、技术等许多细节,整合各方信息(如社交媒体热门内容、技术进展),形成一个独特的内部路线图。思考如何利用这些不同的技术进步来创造价值。这就是我们的总体方法。很多时候,最大的成功往往来自于秘密路线图,这才是能改变游戏规则的东西,而不是用户的常规需求。

Lenny:我很喜欢「秘密路线图」这个称呼,感觉特别有趣。确实,这是个秘密。我不会打听路线图上的内容。我好奇的是,能否说说从秘密路线图中诞生的,对你们而言十分关键的一个功能是什么呢?

Gaurav:太多了。举个早期的例子。应用刚取得成功时,最早添加的 AI 功能中有个「眼神交流」功能。很多新手录制视频可能照着屏幕外的脚本或提词器念,效果不佳。我们开发的这个功能,能让眼睛看起来像直视摄像头,而且我们是第一家开发这个功能的公司,是与英伟达合作完成的这个项目。

最初联系英伟达时,他们不太理解这个需求,但出于如何将技术应用到实际产品里感兴趣,就很爽快地答应合作。我们发现了创作者领域这个独特应用场景,把这个头脑风暴产生的创意纳入计划并推出,结果大获成功,展示它的视频广告在社交媒体广泛传播,几乎被翻译成各种语言,至今仍然能有数百万浏览量,转发也能获得大量浏览,因为大家觉得创意很棒。如今很多应用都有了这个功能,这就是秘密路线图诞生的创意之一。

不能为了用 AI 而用 AI

Lenny:现在的技术能够让我们打造出以前无法实现的所有东西。但难处在于,让人们关注并持续使用产品。毕竟现在打造产品容易,而且各类产品都很棒、有趣。如何让人们关注并长期使用产品,你有哪些经验可以分享呢?

Gaurav:没错,当下确实有很多炒作,在一定程度上推动了不少公司发展。从用户获取和营销的角度来看,几年前,如果你的产品很新颖,去推销,用户可能不买账;现在只要说「用 AI 重新打造」,就会吸引很多人尝试。当然,得兑现承诺,做不到用户就会流失;做到了,就有机会大规模获客。这种情况能持续多久不好说,但当下确实是一个不同的时期。

我也认为,打造产品的核心是解决问题。有个误区就是,很多人误把产品做得酷炫,以为这样就能留住用户。可如果只是建了个「游乐场」,用户玩一阵就走,算不上生意。所以,解决实际问题始终至关重要。

Lenny:解决人们的问题,说起来容易做起来难,但确实重要。我好奇像你这样的人,如何做到不被海量信息压垮,如何明确关注重点并保持专注。对于那些每日面对新热点,感觉无所适从、被信息淹没的人,你有什么建议?

Gaurav:这在某种程度上确实是产品开发的新问题,你可选的路径、想法太多,可做的事情也太多了。优先级排序向来重要,如今更关键。

首先必须弄清楚哪些事情是不需要关注的。我们一般通过找用户需求来确定优先级,而检验用户需求最简方法是看事物的传播性。人们乐于分享、谈论的东西,往往蕴含真正有趣的核心元素。虽说这些元素未必适用于所有方面,可能只是一次性使用场景,无法用于构建订阅业务,但能引发共鸣。识别出该核心元素并融入业务,是确定有效事项的好办法。

而且我们现在有这些工具,我们不需要打造任何东西,你只需要谈论一下,人们就会分享,分享这个想法。你甚至可以在真正打造产品之前,就衡量出这个产品可能会受到怎样的欢迎。所以这是我们用于确定优先级的一个很好的工具。

我们花了很多时间在社交媒体上。显然,我们的应用经常用于社交媒体,所以我们的很多员工都会花很多时间在社交媒体上。我们会关注有哪些趋势,正在发生什么事情。基于这些,我们可以很好地判断出哪些东西可能会引起人们的共鸣。

Lenny:感觉你们在维持产品热度、持续引发用户兴趣上做得很棒。毕竟当下新鲜事层出不穷。你们是如何让人们始终觉得「哇,他们做的东西真有意思」,并一直保持这种有趣感的呢?

Gaurav:关键在于不能为了用 AI而用 AI,不能只图兴奋、炒作和新奇,而要用能切实解决实际问题的 AI。打造产品的基本原理没有改变,分三步:明确用户的问题、运用技术解决问题、找到有这个问题的用户。做到这三点,在任何环境都能打造出好产品

现在的不同之处在于技术方面发生了太多变化,能做出从前做不出的产品、解决从前解决不了的问题,这就是机会。在视频领域,机会无穷,我们虽然刚开始,但是目标明确,我们不打造专业工具,不是为专业人士打造产品,而是面向那些以往因为缺工具、技能或时间无法制作视频的人,帮他们跨越技能和时间差距,比如没时间但要成果的企业主。总之,要解决的问题还有很多。

Lenny:你们的团队有没有和基础模型公司进行合作呢?AIAgent 有没有参与到你们的规划里?

Gaurav:老实说,我希望能朝着这个方向发展,但主要因为上下文的问题,目前还没有实现。理解用户和应用场景所需的上下文很抽象,即便我觉得我很了解我们的用户,但我很难确切地用语言表达清楚为什么会这样。我花了很多时间和产品经理、设计师交流,传授我自己积累的经验也是个挑战,毕竟我自己都很难用语言表达清楚。如此一来,向 LLM 提供这些上下文信息更是难上加难。这是我需努力克服的问题。

以我在 Snap 工作时为例,我认为 Snap 和它的 CEO Evan Spiegel 最独特的地方之一,就是他对用户有着无人能及的理解。在公司成立的十年里,没有人能像他那样理解用户。他会提出一些大家都不认同的想法,然后我们推出这些想法所对应的产品,结果却大受欢迎,一个接一个的成功。大家都会鼓掌称赞,但没人知道原因。很多事情都是事后才恍然大悟。比如 Snap 曾宣称自己是相机公司,遭到大家嘲笑,我们是要做数码相机之类的东西吗?为什么是相机公司呢?实则 Snapchat 打开直接进入相机界面这一微小决定,成了公司的竞争优势。因为当你的朋友正在做一些有趣的事情,你需要立刻捕捉这个瞬间的时候,Instagram 等应用打开不是相机界面,人们就会选择 Snapchat。Instagram 无法模仿,否则指标会下降。所以这种对用户的深刻理解,我也是很久后才领会,影响深远。

AI 创业,先解决有边界的问题

Colossus:你们是这一波创业最早 AI商业化的公司之一,在创建 AI 公司的过程中,哪些经验或教训是与普通软件公司不同的?

Gaurav:首先需要问的问题是,我们到底在 AI 革命中实现了什么?今天的 AI 和之前的 AI 有何区别?

现在的这场 AI 革命,核心其实是更大规模模型的训练。要做到这一点,我们需要更好的硬件、更先进的机器学习架构:Transformer、Diffusion model 等新型架构的突破;还有一些其他新技术的引入。

事实证明,当我们将模型做得越来越大时,它们能解决更多问题——无论是文本生成、朝着 AGI(通用人工智能)发展,还是视频生成、媒体生成等领域的应用。关键是,最终重要的因素是数据;很多公司现在都在抓取互联网的数据,然而互联网数据总有上限。

从长远看,我们需要找到可持续的数据源,以支持更大规模模型的训练。我认为这是决定哪些公司会在 AI领域脱颖而出的根本问题。

对我们来说,专注于视频生成和视频编辑,问题就变得非常具体:视频数据比文本或音频数据尺寸更大、更稀缺、创建难度高,因此训练成本更大。在这个领域,我们面临的挑战是,如何创建一个数据飞轮,使我们能持续地获取越来越多的数据,进而推动模型不断壮大,从而保持在技术前沿。

我还想特别指出,当前市场上不同 AI 公司的基本区别。

以文本生成公司为例,很多公司其实并不单纯解决文本生成问题,严格来说,它们是在解决一个完全不同的挑战——智能问题。

智能问题至今没有被解决。虽然我们在模型中发现了某种程度上的智能,但距离真正的智能仍有很长的路要走。也许我们永远无法让 AI 模型达到人类智能的水平。那么是否有可能有比最聪明的人还要智能的 AI?也有可能。但那是一个我们尚未到达的边界。

但如果我们看待音频生成、视频生成或音乐生成等问题,它们更多的是在解决一个已经被「解答」的问题。

以视频为例,CGI 技术(计算机生成图像)已经存在,我们可以制作虚拟人物、场景。AI 的作用,实际上是让我们更容易、更高效地解决这些问题——不仅是「稍微」提高,而是提高数百倍。这意味着,视频生成技术将变得更加易用,市场也会更广泛。

这是一个根本的区别。

我们把 AI 公司分为两类——一种是致力于解决 AGI 问题的公司,另一种是从事媒体内容生成的公司。前者更像是在追逐一个无边界的智能问题,投入大量资本,训练出一个好模型,但这个模型很可能很快被下一个更新的模型所取代,而这个过程可能永无止境。

但如果是从事媒体生成的公司,它们创造的实际上是一个资产,而且很可能很快就会达到一个「足够好」的水平,甚至接近完美。到那时,技术就是一个稳定的资产,开发成本巨大,但一旦存在,它将持续创造价值,并且不会轻易贬值。

那哪些因素会让这些模型越来越好呢?我认为,首先是更多的数据精细调优,针对具体的应用场景(比如广告、电影、社交媒体等)进行优化。

但也许在不久的将来,技术会达到一个「非常好、非常真实」的水平。我们现在正在思考的一个重要问题是,如何启动数据飞轮,推动技术达到那个阶段。

Colossus:想象力与输出之间的代沟已经不存在了,唯一的问题是成本。所以,实际上你们的目标就是降低成本。你认为这一目标何时能够实现?

Gaurav:很多人都看过威尔·史密斯吃意大利面的视频 meme,它很快就从非常糟糕变得质量非常不错。

我觉得大概一年到一年半的时间,视频生成的内容就会达到「非常真实」的水平。将文本模型与视频模型作比较,文本模型的规模现在已经进入了 4000 亿参数的范围,人们已经更好地理解如何扩大语言模型的规模,而扩散模型的参数规模仍然只有几十亿,还远未达到文本模型的水平。

但随着技术的进步,视频模型毫无疑问会越来越好。而且专家们已经知道如何去优化,只是很少有公司拥有足够的资金和专业知识来实现这一目标。所以这是一个需要时间的问题,而非一个没有解的问题,我们会看到这些模型变得越来越好,特别是在视频领域。

Dwight:视频模型对视觉工作的影响——重塑工作流程、更新设计思维等方面,实际上涉及的是设计问题和产品问题的结合。虽然目前仍处于非常早期的阶段,但我认为,我们离彻底改变人们日常工作方式的时刻已经不远了。

Colossus:你们的 AI模型训练的具体过程是什么样的?模型训练的目标是什么?这与「预测下一个 Token」有多相似或不同?在视频中,所谓的「预测下一个 X」是如何工作的?

Gaurav:我们训练的模型是扩散模型(Diffusion Model)。这些模型的训练方式是从噪声开始(字面意义上的噪声),就像你在电视上看到的静态图像一样。在每一步中,根据提供的文本,模型会查看噪声,并尝试在噪声中预测出一个清晰的图层。例如,「穿蓝色衬衫的男人」,于是模型开始从噪声中绘制出一个穿蓝色衬衫的男人。随着模型训练的每一步,它会不断揭示出「穿蓝色衬衫的男人」更多的细节。这就是文本条件化(text conditioning)帮助它决定如何达到「穿蓝色衬衫的男人」这个目标的方式。

我们仍然处于扩散模型训练的早期阶段,目前我们处于数十亿参数的范围内。Meta 的 MovieGen 模型大概有 30 亿个参数。

但很多工作都集中在这些模型的扩展上。与文本不同,视频本身很大,它消耗的空间和训练所需算力都非常庞大。我们光下载视频的费用就可能达到一百万美元,它带来了不同的挑战。

Colossus:视频模型相对于文本模型在资源上的上限如何?在风险投资领域,人们有一个重要讨论就是 GPU集群的规模需要多大。为了让视频模型达到完美的程度,它们是否比文本模型更消耗 GPU 资源?

Gaurav:它实际上是比文本更容易解决的问题。文本问题涉及的是智能,而视频问题更多的是渲染,而我们已经知道渲染的成本。

那么,我们是否能做得更高效呢?这是可能的。今天的视频渲染模式可能不是最有效率的,或许 AI 的渲染比常规渲染更便宜、更快速。

尽管现在还是初期阶段,但我们大致了解它应该往什么方向发展,现在我们不需要做上百次的扩散就能得到一个清晰的图像,随着技术的提高,扩散模型的成本效率可能会高一个数量级,例如 10 倍。

Colossus:我很喜欢你之前对智能的无界问题和视频等有界问题的框架划分。

Gaurav:我认为这个框架同样适用于技术领域。即使在文本处理方面,你也可以把它应用到某些有界的问题上解决。

比如,我们是否需要通用人工智能来解决编码问题?不一定,因为它所做的事情本质上就是在翻译。想想计算机的演变过程。我们过去曾经使用穿孔卡片,后来写汇编语言。然后我们写 C++,接着出现了像 Python 这样的现代编程语言。

然后我们就可以说,「新的编程语言就是英语。」这并不是一个疯狂的跳跃。它其实是一个非常有界的问题——本质上是在发明一种新的编程语言,而且这种语言对人们来说更加易于理解,因为大家本来就已经懂得它。

专注「角色生成模型」,更容易达到 PMF

Colossus:在构建产品过程中,你们做出了哪些权衡?视频是一个很大的类别,既有《指环王》级别的电影,也有普通视频内容。

Gaurav:我们有意识地将目标范围缩小了很多,正如你所说,视频涵盖的范围太广,问题也太多,我们不可能解决所有问题。所以我们的重点是围绕「交流」来制作视频,这些视频的主要是内容是人物口播。大部分内容倾向于营销、销售、教育,或者培训。

我们要做的是制作能够讲述真实故事的视频,不只是「兔子在火星上跳跃」之类的内容。我们的目的是讲述故事、推销产品,或表达其他需要沟通的信息。

这使我们在产品与市场契合度(PMF)上有很大潜力。我们是目前唯一一家训练「生成角色」这一类基础模型的公司。尽管市场上有其他公司,但他们并没有训练基础模型,所以我们将对这个领域未来的发展拭目以待。

Colossus:目前这些模型能做的,或者在一年后可能能做的,有哪些限制?比如说,人与物品的互动。

Gaurav:我认为在六个月内就会实现,我们很快就会看到这一技术的初步版本。

Colossus:那是怎么运作的?是通过某种方式创建这个物体的 3D 表现吗?要创造这样的效果,需要哪些步骤?

Gaurav:你得找到已有的人与物体互动的视频——比如一个人在喝罐装可口可乐,然后你要识别这些物体,并用它们作为条件输入。

以 Fiji 水瓶为例,它有一个非常独特的设计。除非模型之前见过这个瓶子,否则它可能无法准确地复现它,仅用文本描述可能不足以传达它的外观。所以你可以使用图像来做提示:「这是一个 Fiji 水瓶的图片」,然后附加文字说明:「穿蓝色衬衫的人拿着 Fiji 水瓶。」模型将通过这些信息推测出其他细节。

因为模型已经看过瓶子,所以当你给出这个瓶子某个角度的图片,它可以推测出从另一个角度看起来的样子。如果你旋转它或移动它,模型也能猜测它从其他角度的样子,准确度相当高。当然,如果我们提供多角度的瓶子图像,这能进一步提高准确性。

Colossus:你认为随着生成这些视频的成本和门槛降低,它们的价值会如何变化?你们所做的事情是否会引发其他连锁反应?

Gaurav:回顾 2010 年代,那是设计大发展的阶段,不仅 Canva 和 Figma 在那个时期出现,还有很多公司在做「只需点击几下就能制作精美网页」这类工具,而且它们都不是 AI 驱动的。

那是一个大规模的趋势:如果你想在互联网上卖东西,或者经营任何业务,你就需要一个设计得很漂亮的网站;如果你的网页看起来像是 90 年代的产物,没人会买任何东西。

Dwight:我觉得现在这类网站又回潮了。

Colossus:是的,所有的东西都是周期性的。

Gaurav:视频是最近十年发展起来的,我们将看到越来越多的人采纳它,因为视频生态中的创作者比例会增加。

所以我并不认为视频的价值会下降,如果你想做营销或者销售,拥有高质量的视频是必须的。但我认为视频的其他方面将变得更加有价值。

举个例子,肖像的生成。如果模型可以随意生成不存在的人的肖像,而这些虚拟人看起来非常好,适合代表你的品牌——你可以拥有这个虚拟人的肖像作为公司知识产权,让他成为公司的代言人。

但这意味着普通肖像的价值会降到零,因为任何人都能凭空创造一个肖像。所以,这对肖像的成本或者在高端领域的影响会是什么?我认为这会取决于谁更出名——那些广为人知的肖像,现在会变得更有价值。

Colossus:这些技术有哪些限制?

Gaurav:我们都看过视频模型在处理人物时的困难。

Colossus:手指。

Gaurav:对,手指。还有手臂。

Dwight:喝水。

Gaurav:运动。

Colossus:吃意大利面。

Gaurav:我们采取了一种独特的角度,专门训练模型来生成「人」。我们的数据全是关于人的,我们专注于生成人的视频。我们也计划使用「条件输入」技术——例如提供一个骨架:「这是我想要你表演的 TikTok 舞蹈。」模型就会完成它。

这使模型更好地学习人体结构,了解什么是正常的,什么是不正常的。有时候模型会生成 6 个手指的人,这种情况确实存在。当然,这并不是因为训练数据造成的,而是它可能并没有见过足够多、各种配置下的手,去理解所有的细节。所以,我们的目标是解决人物生成的问题。

Dwight:稀缺性也是一个关键点。一部迈克尔·贝的电影:有 2.5 亿美元的预算,可以在电影里把洛杉矶的一半都炸掉,但是像变形金刚这样的大片,票价也只有 25 美元。

低预算电影,如果能进院线,它的票价也是一样的。

所以我很期待能看到低预算的电影制作人和视频创作者可以制作更多、更复杂的内容,不再受预算的限制。这对电影制作人和创作者来说,是一个巨大的突破。这会帮助视频制作人们提高创作水平。

最适合基础模型的商业模式是什么?

Colossuss:你认为 AI产品在未来如何定价?2500 亿美元的埃森哲(咨询公司),它是靠出售昂贵而重要的劳动价值。你认为 AI 应用程序会将劳动预算取而代之,还是最终会像所有软件一样定价?

Gaurav:我不确定我们完全理解这个问题。某种程度上,现在去判断还太早,因为我们无法完全替代工作流中所有不同环节的劳动,我们还不知道人们愿意为此付出多少钱。我们现在可能只处于使用案例图谱的 3% 或 5% 的地方——非常早期,我们还无法完全取代一些操作性繁重的公司流程。但我们会慢慢去实现这一目标。

一个大问题是,ToC 和 ToB 的定价如何划分?我认为 ToC 定价已经相对明确,趋向于订阅制,而且似乎人们愿意付出比以前更多的费用。

例如,AppStore 或 Web 应用中的视频相关应用,历史上价格大约在每月 7.99 美元到 12.99 美元之间。这是正常的免费增值模式。但是很长一段时间,我们没有免费产品。

在以前,这是行不通的,人们会说,「我不想付钱,」然后转向下一个产品。现在,人们的付费意愿更高,AI 视频生成产品的价格范围各不相同,但有些人甚至愿意为消费者订阅支付每月 2000 美元。

在 ToB 端,一大问题是企业是否会购买基于授权数据训练的模型,他们对这种模型有一定付费意愿,但这个问题尚未确定。我计划全面授权,我们大规模收集数据,因此可以训练完全授权的模型,这是我们独特的优势。

我的感觉是,在最终阶段,拥有完全授权的模型会变得很重要,因为你可以轻松地赢得交易,人们会为这种保证和授权的声誉支付更多费用。

除此之外,真正的问题是你能够涵盖多少个使用场景。我们今天覆盖了 5%,但最终可以覆盖多少场景?我的猜测是,我们可以做到接近 100%,因为这是一个已解决的问题。

Dwight:目前热议的话题是基于产出的定价,但我认为,大家可能想得太超前,可能仍然有更多的「超额利润」可以从传统订阅方式中获取。不过这当然是很酷的,我相信我们会找到某种均衡点。

Colossusss:我想谈谈商业模式。基础模型公司面临两个问题:巨额的模型预训练成本和巨额的推理成本。仅凭 20 美元/月的订阅费用,毛利率都是负的。虽然推理成本在过去 18 个月内已经下降了 100 倍左右。

AI模型公司会说:「这是一个无止境的竞争,我每次都得花 10 倍的钱去做下一个东西,那我什么时候能赚钱?」似乎解决更有边界的问题的公司,会有相对正常、优秀的商业模式,有更高的毛利率,你怎么看这个问题?

Gaurav:我们对于公司业务的思考方式是,解决某个问题会有一个有界限的成本,可能是数亿美元,它可以让我们得到一个合理的解决方案——能够生成任何一个 CGI 工作室可能做的东西。我们现在需要的就是这个水平。

基础模型会继续发展吗?会的。

我们需要对模型进行微调,但微调比从零开始训练一个基础模型便宜得多。

我们构建了一个数据飞轮机制:用海量数据来持续训练模型(后训练),让它能够感知今天发生的事情,以及人们今天可能想生成的内容。但这只是增量微调,成本相对较低,这构成了业务的基础。

此外,推理成本正在下降,AI 公司将越来越像传统软件公司。能真正解决某个问题的公司将会拥有一段时间的护城河,我们同时也在建设数据护城河,以便始终保持领先。

然后,一旦足够多的数据出现,并且足够多的公司获得更多资金,尝试相同的打法,并训练模型,这就会变成一场软件竞赛。

构建工作流,打造产品,进入各种各样的应用场景,我认为这才是未来竞争的焦点所在。

随着时间的推移,必定会出现真正的赢家,赢家将由谁拥有最佳的模型来决定,这个模型能持续超越所有其他模型;而模型的能力受数据获取,以及它所产生的飞轮效应的影响,这会不断提升模型的能力。

从本质上讲,你可以想象有一系列基础模型,能解决跨越视频甚至其他媒体的整个工作流所面临的问题。包括各种不同类型的应用场景,比如电影、电视、短视频、配音、后期制作——有很多不同的潜在应用场景。

Dwight:我考虑的是,最终这些业务的成熟阶段会是什么样子。我相信,这些业务可以变成非常高毛利的公司,无论是由于 GPU 价格的下跌,还是计算需求本身的下降。

历史上,随着一个新技术的发布,它的价格基本都会快速下降,因为其商业模型就是通过让技术变得更高效、更强大等方式来降低某种服务或功能的价格。

有趣的是,当你处于初创阶段,真正的问题并不在于盈利或亏损,而是你是否能够得到足够的数据来保持模型前进,保持业务增长,能够更有效地开发新功能,迎合更多的客户需求。我认为这才是我们真正面临的挑战。

创业公司应该多背负技术债务

Lenny:对于耗时数周的长期项目,以及像后端工作这类基础设施方面的事务,你们是如何处理的?能否讲讲对长期项目的考量,以及怎样开展那些用户不太关注的后端工作?

Gaurav:没错,通常我们会专门安排时间处理这类事务。比如,对我们而言,第四季度一般是基础设施建设季,会集中精力打造各类基础设施。第四季度一般来说,我们已经推出了大量产品,对这一年的其他时间的工作也感觉很不错。事情逐渐进入收尾阶段,显然节假日也快到了。所以我们会花所有时间来偿还技术债务。

实际上,我认为在技术债务这个问题上有一个独特的思考角度。作为一家初创公司,你的任务就是承担技术债务,因为这是你比大公司运营得更快的方式。大公司不会承担技术债务,他们通常会立即偿还,或者他们正在偿还自己在初创时期积累的技术债务。而且他们当时积累了很多。像我在 Snap 工作时就有不少这类情况,其他公司想必也如此。

我们会思考:这是当下必须解决的问题,还是能让第 50 名、第 100 名或第 500 名工程师解决的问题?如果能交给未来的工程师,就将问题后置,实际上,我们就是这么做的。如果公司失败了,那个工程师也永远不会被招聘进来,那么所有这些也就无关紧要了。从很多方面看,技术债务类似财务债务,承担财务债务能创造杠杆效应,比如贷款买房,能买到超出当前支付能力的房产。同理,战略性承担技术债务,能让小团队做出原本做不出的产品,是积极有益的。

Lenny:哇,这个想法太酷了。我想到的是,那个未来的工程师可能是一名 AI代理工程师。专门解决问题,正好符合你的思路。

Gaurav:完全正确,多年后的第 500 名工程师可能会因为解决了那些早期不太出色的工程师遗留下来的大问题而获得晋升。

Lenny:显然,这是有界限的,你肯定不想承担过多的债务,不然就会引发大问题。关于如何把握这个平衡,比如承担多少债务算过多,以及怎样判断是否已经足够用于核心功能的工程开发,你有什么想法吗?

Gaurav:一般而言,经验法则是承担的每笔债务都要付「利息」。采用快速开发方式承担债务,每天会有 1% - 2% 的时间用于处理因之产生的漏洞、问题、重启和崩溃等状况。如果债务实在太多,每天可能 80% - 90% 的时间都耗在这些事上,就没时间开展新工作,只能支付「利息」,这是初创公司失败的原因。某种程度上存在一条技术债务的「跑道」,一旦债务过重,而且在相应时间内没有创造足够价值聘请工程师支付「利息」或偿还债务,就会陷入困境。

Lenny:我喜欢这个观点。这是一个很好的启发,让我们知道什么时候该对某件事进行投入。有时候你必须做出一些重大的技术决策,可能会影响到未来所有产品的构建方式。对于这些决策,你会花更多时间去认真考虑。

Gaurav:是的,我认为只要这个决策是可逆的(双门决策),你就可以按自己的想法去做。这是一种经典的方法,如果这是一个不可逆的(单门决策),那就值得认真思考,并且尽可能正确地做出决策,至少要考虑到这个不可逆的决策在未来对你的重要程度。

产品经理应该懂营销

Lenny:说回 Snap,社交网络领域中,除 TikTok 外,Snap 基本是最后一个成功推出且站稳脚跟的,而我认为 TikTok 更像内容平台,人们互动较少。Snap 于 2011 年推出,距上一个成功的社交网络已过去约 15 年。除了 Evan 的智慧,从宏观角度看,你认为 Snap 成为成功的面向消费者的社交网络的核心因素是什么呢?

Gaurav:Snap 有几个方面表现出色。社交网络方面,核心产品与市场的契合度能达到很高水平。从根本上讲,人们下载它的原因、它的传播、用户邀请朋友或者发送快拍的方式等等,这种产品与市场的契合度有时候会非常高,以至于实际开发产品变得很困难,因为你很难判断你正在开发的东西是推动了产品的增长,还是实际上在阻碍它。

基本上,你不知道产品的增长是不是与你所做的工作无关,甚至会让人学到错误经验,错把反常规的做法当成正确的,即便公司仍在增长。

我认为 Snap 做得好也是它需要做好的,就是持续创新。面临激烈竞争,而且社交网络有垄断性,Facebook 等很多公司也曾试图阻止 Snapchat 发展。而 Snap 避免被压制的办法就是创新。其核心在于独特架构,公司 CEO 注重产品,而且自己就是设计师,组建了核心设计团队,只有 10-12 个人,规模相当小,即便公司五六千员工时,设计团队规模依然最小。

Lenny:Snap 在有五六千名员工的时候,设计团队只有 10 到 12 人?而且在很长一段时间里都没有产品经理

Gaurav:Snap 最初没有产品经理,随着公司重视盈利,产品经理才被引入并发挥作用,如今各部门都有足够数量的产品经理。在很长一段时间,尤其创新阶段,公司粉丝少,而且公司由设计师主导。但这些设计师不普通,他们还承担着产品经理的职责,这是关键。他们身兼设计和产品管理双重任务,责任重、工作量大,却让 CEO 能精细把控应用推出内容和位置。因为 CEO 可以和这 10 到 12 名设计师会面,了解每个影响用户的变化。

当时公司有很多改进工作,比如基础设施、后端、优化排名和性能提升等,不过 CEO 主要关注应用添加的 UI。添加 UI 需要设计,但公司除这几个能直接与 CEO 沟通的设计师以外没有其他设计师,这使得公司对推出内容把控细致。所有内容都需 Evan 批准,未经批准不会发布,所以设计团队在这方面权力很大。

Lenny:在 Snap,有设计师承担产品经理职责这个亮点。可能很多人会觉得,那只需聘请设计师就行,传统产品经理只会拖后腿、一味说「不要做什么」。你能否讲讲这些设计师的能力水平,是什么让他们在没有产品经理的情况下也能如此成功呢?

Gaurav:是的,当时对设计师的要求不止于设计技能。他们都是无下属的独立贡献者(IC)设计师,所有设计工作亲力亲为。此外,他们还得有领导能力,能制定路线图、撰写文档,与不同团队协作确定发布计划,不仅要懂技术工程,还要熟知用户体验(UX)、用户界面(UI)和产品需求,明确做事目的并牢记路线图,需考虑的事情繁多,工作量极大,这些人工作十分努力。并且他们薪酬丰厚,比一般设计师、产品经理或工程师的薪酬高很多,还有季度奖金等各类福利。

而且他们的薪酬也很高。我记得,他们的薪酬比你想象中设计师、产品经理或工程师的薪酬要高得多,还有季度奖金之类的各种福利。

Lenny:这很有意思。人们会想为什么没有产品经理呢,毕竟产品经理的工作总得有人做,他们并非闲着没事。要知道,承担产品经理工作的人,得既擅长又热爱这份工作。可很多设计师并不想做撰写文档之类的,还要协调利益相关者并达成共识。

Gaurav:完全正确。这就是为什么很难找到既能够做设计又能承担产品经理工作的人。实际上,我认为融合不同职能的技能,往往能催生创新,一人身兼两职或具备相应能力时会有其独特意义。

以我在 Snap 的经历为例,起初我在工程团队,最后两年加入设计团队,期间创建了「设计工程」职能,即设计师兼工程师,这类人既能构思用户体验、完成设计,又能构建发布产品。我们让设计师学工程,工程师学设计,目的是在公司规模扩张时维持创新。

随着公司工程师从 500 名增长到 3000 名,做事变得困难,项目耗时久、资源投入大,创新试错成本高。尤其是像 Snap 这样的公司,因为大家都在模仿它的做法。Evan 并不抵制那些被抄袭的东西,他更多追求扩大市场份额,所以必须不断创新,创造新的东西,突破界限。于是我们组建小团队,由设计工程师快速搭建产品早期版本,嵌入 Snapchat 应用,在澳大利亚或几所高中测试,获取产品表现数据,类似初创公司开发产品的流程,之后再与工程团队合作规模化开发。

这一过程产生了意外好处。在大型组织中,达成共识是难题,产品经理重要职责就是促成共识,这工作量很大,因为你要与所有利益相关者沟通,让他们达成一致。而我们发现,公司规模大时可通过内部传播达成共识。如果你和某个人分享一些有趣的东西,他们会因为觉得有趣而分享给其他人。我们创建原型产品分享,在公司内部引发传播,工程师、经理等纷纷关注,所以这是一个很好的方法。一旦我们真正了解到这个产品确实有良好的动态效果,并且我们已经进行了测试,这就是一个很好的方式,让所有人都了解这个产品,并营造出一种「嘿,我们都在朝着这个未来努力」的氛围。

Lenny: 不少公司都是这样,比如 Stripe,在聘请第一位产品经理前就有数百名工程师,工程师承担着产品经理的工作,Snap 也是如此。但感觉你的公司不是这样运作,而是有传统的产品经理、工程师、设计师。能讲讲为什么决定不采用那种模式吗?

Gaurav:我确实认为产品经理是一个非常有价值的职能。但我认为在 Snap 不聘请产品经理可能是一个成功决定,但毕竟相关工作总得有人做,否则无人负责,事情难落实,也缺乏问责机制,这不是合理架构。

话虽如此,设计师如果有产品经理思维,就有独特的优势,同理,工程师具备产品经理思维也是一样。进一步看,产品经理如果兼具设计和工程思维,那就更好了。我觉得核心在于,每个人都要全面、基础地了解自己工作涉及的所有职能。

在 Captions,我们甚至更进一步。为什么产品经理不应该了解市场营销呢?找到有产品所针对问题的用户,是产品经理的关键工作。从某种程度上讲,产品经理应负责到市场营销环节。因为市场营销是拓展产品覆盖范围,比如搜索营销、脸书广告,从用户点击应用的按钮开始,所有的数据就产生了,开启了整个用户旅程,这和产品工作所需技能相似,理解这一节点的用户至关重要。

所以我的核心观点是:各职能部门应尽可能深入了解其他职能,甚至具备相应工作能力。这样,公司在微观层面做出的所有决策,就更有可能针对不同人负责的整个业务流程的各个环节进行优化。

Lenny:我十分认同。Irene Lee 因为将所有产品经理头衔改为产品营销经理而知名,原因就在于她认为产品经理不仅要打造产品,还应负责营销。对我而言,产品经理的工作就是推动产品发展,被用户接受并受到喜爱。可人们并非都这么想。

显然,掌握付费增长、SEO、产品营销、信息定位等技能并非易事,但这确实是打造产品的关键。打造产品不能仅做出产品就听之任之。我想你招聘产品经理时,会寻找有营销直觉和相关经验的人。

Gaurav:完全正确。至少要具备学习这些的能力和直觉。

Lenny:我在思考产品团队里产品经理、工程师、设计师构成的三角关系。在 Snap,似乎利用了这个三角的边,比如有设计工程师,还有设计兼产品经理。我猜工程师本身也挺有产品导向,近似产品经理。那你们有设计工程师兼产品经理这种职能吗?

Gaurav:我觉得工程师兼产品经理应该是一种常见的模式,或者说每个工程师都应该努力去理解产品。

如何应对一个全是 AI 生成视频的时代?

Lenny:感觉我们快到或者已经到了这种情况:难以分辨视频是真实还是 AI生成的。我很好奇,一是你觉得我们离这种情况还有多远?二是在一个可以生成任何你想要的视频的世界里,会有哪些影响?

Gaurav:归根结底,其实视频、图像、音频无法被信任的时代已经存在一段时间了。以前还没有视频、音频或图像,大多数情况下,事情都是靠「他说、她说」来证明。如果所有内容都能生成而且真假难辨,那么我们可能真的会回到那个旧时代。

我觉得这既可怕,又带来解决问题的新机会。目前创造完全逼真的视频已很接近,一些前沿模型差一点就能实现,但完全无法区分真假可能还需要几年,而且受应用场景驱动。就拿 Captions 公司来说,我们对想要专注的视频类型有独特的看法。当下视频生成大多是无声、类似备用镜头的视频,很多电影、电视剧、社交媒体帖子或广告,实际上都包含对话或独白,是人们相互交流、对着镜头说话、互动,这才是关键。目前在这个领域开展的工作并不多,这还是个尚未解决的问题。

我们正在努力接近目标,不过当前模型有一些分歧。当前有公司用神经渲染技术制作虚拟人视频,该技术独立于 Transformer 和扩散模型,和 AI 发展也没有关系,只是能碰巧产生半真实的输出,但存在一定局限性,而且必须对每人单独训练,生成针对个人的视频。还有很多公司做无音频的通用文本转视频,大型生成模型的能力有待提升。在研究领域,虽然这些问题可解决但目前缺乏人们投入时间。

Captions 公司核心专注于用于说话视频的大型生成模型。从安全角度,我们有独特的思考框架。一般来说视频分两类:

  • 一是记录类,如个人聚会视频、记者记录事件视频等,主要为了留下回忆; 还有一种非个人版本,比如记录犯罪事件、自然灾害等等,客观记录涉及时间地点人物,这是为了留存历史,我们想知道发生了什么。AI 生成这一类视频全是负面影响,生成虚假的现实场景欺骗人没有任何好处,我们要杜绝被用于这类场景。

  • 二是叙事类,像广告、社交媒体帖子、电视节目等,它们是为了娱乐和趣味而设计的,人们不会「相信」,知道这是虚构的。如果能让更多人讲故事、娱乐并传播信息,就是积极的。

在产品设计上,需思考如何让产品很难被用在不良用途,同时便于在积极的方面使用,这是真正的挑战。

Lenny:字节跳动刚发布了个超厉害的模型。我看到输入一张照片,它就能生成这人以多种方式说话的视频。那这个模型属于你刚才说的哪一类呢?

Gaurav:我觉得它正属于我们关注的生成人物说话视频领域,这也是字节跳动的目标。它是大型公司发布的首个能生成对话或独白视频的大型模型之一。你见过了我就不细说了。它的表现力强,看起来不像虚拟人视频,原因是它采用的是真正的大型扩散模型,与多数做虚拟人技术公司使用的基础技术有本质区别。

Lenny:从 Will Smith 的意大利面视频出现到现在过了多久?看看事情发展得有多快。

Gaurav:天啊,发展太快了,太惊人了。我觉得大概一年半到两年吧。

Lenny:我在想象,如果是一个社交网络,人们通常想知道这些人是谁。我不在乎陌生人分享状态更新,但我能想象一个全是 AI生成内容的抖音(TikTok)。

Gaurav:完全正确。

Lenny:内容完全根据你的喜好定制,全是随机视频。

Gaurav:因为你看抖音的视频流时,你现在甚至都不知道谁是真实的,对吧?它感觉不真实。

Lenny:我会这样做,去抖音上传 AI生成视频,尝试搭建这样一个网络。未来真是疯狂啊。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅