专访Pika Labs创始人:探索视频生成的GPT时刻

2023-12-05
天才少女创业,抓住行业变化窗口期

图片

编者按:本文来自微信公众号海外独角兽(ID:unicornobserver),作者:拾象 ,采访:penny、cage、Kefei,编辑:Siqi、penny,创业邦经授权发布。

每一代技术变迁都会带来内容生产的繁荣:胶片技术催生了好莱坞和迪士尼的黄金时代,数字化带来的家庭录像技术则铺平了 YouTube 的兴起之路,在移动和算法时代,TikTok 强势崛起,在这些代际迁移的过程中,人们的视频消费需求也在不断放大。

AI 时代是否会催生“新时代的好莱坞”?AI 对视频制作的改造可以简单分为三类:视频生成(Text-to-Generate)、AI 视频编辑(AI Editor)以及数字人(Avator),后两者从视频编辑切入,用 AI 提效,而视频生成意味着内容创作的极度民主化,有机会彻底改造传统工作流,也最让我们感到兴奋。

技术视角下,相对于文本、代码和图片生成,视频生成(Text-to-Video)也一直被认为是 AIGC的“高地”,面临庞大的计算需求、高质量数据集短缺、可控性等挑战。

视频领域何时会迎来自己的 GPT 时刻?过去一年,Text-to-Video 领域的进展远比想象中迅速:Runway先后发布了 Gen1、Gen2,上周推出的 Motion Brush 则在可靠性上向前了一步,Stability AI 也在上周发布了自己的首个 Text-to-Video 模型 Stable Video Diffusion。

今年 7 月,Pika Labs 在 Discord推出服务器,并在几个月时间内收获了 50 万用户,大家开始将视线转向这家被称为视频生成领域“黑马”的公司。

Pika Labs 的团队相当精简,目前仅有 4 位全职成员,但兼具学术和创意两个领域顶尖人才:Demi Guo 和 Chenlin Meng 同为 Stanford AILab 的博士研究人员,拥有顶尖的学术和科研经历;Karli Chen 作为团队第三位创始人及创始工程师拥有 CMU 的 ML&CV 硕士学位,Karlin 本科期间就在机器视觉公司 SenseTime 担任工程师;Matan Cohen-Grumi 则是拥有丰富经验的创意领域。

图片

Pika Labs 最新官网

今天,Pika Labs 正式推出了最新一代视频生成模型 Pika 1.0。Pika 1.0 不仅对视频生成质量进行了提升,还支持 3D 动画、动漫或电影等多种风格视频,此外,用户还能够通过 Pika 实现画布延展、局部修改、视频时长拓展等编辑需求。在推出 Pika 1.0 的同时,团队也上线了最新官网,用户不仅能在 Discord 上使用 Pika 的服务外,还可以在官网进行视频生成和编辑(官网地址:https://pika.art)。

Pika Labs 目前已经累计完成 3 轮、共 5500 万美元融资,最新估值为 2.5 亿美元。Nat Friedman 、 Daniel Gross 和 Lightspeed 分别领投了 Pika 的 Pre-Seed、Seed 和 A 轮融资,此外,众多硅谷明星投资人、AI 领域重要公司 CEO 或核心成员也参与了 投资,例如:Elad Gil、Adam D'Angelo(Quora 创始人及 CEO)、Andrej Karpathy、Clem Delangue(Hugging Faceco-founder 及 CEO)、Aravind Srinivas(PerplexityCEO)、Mateusz Staniszewski(ElevenLabsCEO)以及 Keith Peiris(Tome CEO ) 等。

海外独角兽在 Pika 1.0 发布之际也对 Pika Labs 两位创始人 Demi 和 Chenlin 进行了访谈,两位创始人分享了她们的个人经历和创业故事,对视频生成技术的理解,以及对 Pika Labs 产品及商业化的思考。

图片

Demi Guo 和 Chenlin Meng

受访者供图

嘉宾简介

• Demi Guo:Pika Labs 创始人兼 CEO,高中时期进入 IMO (International Math Olympiad) 国家集训队,并在2015年IOI (International Olympiad in Informatics) 中获得银牌。在哈佛大学获得数学学士学位时,Demi 同时攻读了计算机科学硕士学位,并转至 Stanford 攻读博士学位,师从 Ron Fedkiw 和 Chris Manning 教授,进行图形学和 NLP 交叉领域的研究。除此之外,Demi 在大二 gap year 时期成为 Meta AI Research 最年轻的全职员工,也在Microsoft、Google Brain、Epic Games 等公司实习,拥有很强的工程和科研能力。

• Chenlin Meng:Pika Labs 联合创始人兼 CTO,在 Stanford 攻读数学学士学位期间即在 Stefano Ermon 教授指导下开始学习研究生课程,并在本科期间就发表了 5 篇 Generative AI 方向论文,完成本科学业后,Chenlin 继续在 Stanford 攻读计算机 Ph.D 学位,在 3 年时间中发表了 30 多篇论文,其中,她参与创作的 DDIM 论文是内容生成的重要论文之一,DDIM 是一种重要的内容路线, OpenAI 的 DALLE-2、Google Imagen 以及 Stable Diffusion 等模型都使用了这一方法。

01.

天才少女创业,抓住行业变化窗口期

海外独角兽:为什么选择创业做视频生成,当时看到了什么样的机会?

Demi:我对创意行业和用 AI empower content creation 一直很感兴趣,很有热情。我从小学画画,家里人也有不少是做艺术行业的,我也一直想往这个方向创业,读博选的也是 AI 和 creation 方向。我在博士期间有两位导师,一位是做 AI 的 Christopher Manning,现在是 Stanford 人工智能实验室的主任。另一位是 Ron Fedkiw ,是做创意、电影行业的,得过两次奥斯卡奖,也参与过加勒比海盗、星球大战等电影的特效,他现在也是我们公司的 advisor,我有时候和老师开玩笑说,他在计算机图形学火起来的时候,改变了整个电影行业,而我们现在想用 AI 再次改变行业。我觉得这个方向能做十年。

在视频生成之前,我考虑过游戏行业,因为如果用 AI 去做 content creation,游戏最容易商业化,我在斯坦福读博期间还专门去 Epic Games 实习,了解游戏行业的痛点。但后来发现视频行业比游戏更不成熟,更有机会。

今年年初,Runway 举办了第一届 AI movie Festival,我找了几个 Stanford 的 AI 博士还有其他朋友,组成了一个六、七人的团队,还请来一位得过两次艾美奖的编剧。我当时以为这个团队一起制作电影应该不难,但实际制作的过程中意识到,现在的视频工具非常复杂,想表达心中的想法门槛很高。有时候我们想做很小的事情,比如换个背景,几秒钟的内容也要消耗几小时,软件还经常 crash。我意识到电影行业和视频制作过程之间有很大的 gap,对非专业的人来说,视频工具很难学,每个细节都要用很复杂的工具完成;而对专业的人来说,即使已经熟练运用工具,还是要消耗大量时间。

海外独角兽:在这个过程中,你感受到 AI 会在视频行业里起到什么样的作用?

Demi:我们当时已经在用 AI 赋能,那时候 Runway 还没发布 Gen-1,我们用一些 AI 算法实现了一个从 real action 到 live action 、再到 animation 的电影作品。那时制作视频的 AI 算法不少,但没有被嵌入到任何工具里。我个人认为当 AI 功能非常强大时,视频制作不可能再这么复杂,未来一定会有完全不同的体验。这件事非常确定,但当时好像没有很多人去做这件事。

我还意识到一件重要的事,就是 AI 无法替代艺术创作者。我们那个电影制作团队有这么多 AI PhD,还找了很好的编剧,但还是很难做一个很好的电影作品,做出来就是不够好看。所以我意识到,AI 能做的是高效生成内容,给创作带来无限可能,但要选择哪种可能,还是要有艺术家来导演。比如说,如果有一个 visual guidance 就能让 AI 生成任何东西,但我们不知道这个 visual guidance 应该怎么做,生成的东西可能景深有问题,可能灯光有问题,就是不好看。

很多艺术家会担心 AI 视频工具会替代他们,但我的亲身感受是 AI 无法代替,它可以帮助艺术家去更加效地去实现创意性的想法,并且让更广泛的非专业人士更容易上手使用创意工具。所以 AI 只是一个帮助人们解放创造力的工具,减少琐碎工作,让人去导演 AI,这是我们和 AI 的关系。

海外独角兽:Pika Labs 的创始团队成员是什么背景,你们是怎么聚在一起的?

Demi:我的 Co-founder 是 Stanford 本科,我是 Harvard 本科,留学圈很小,所以我们之前就认识。后来我们都在 Stanford 读博,她刚好也想做这个方向,而且在图像生成方向发了 30 多篇顶会了。我们还有一个创始人,Karli Chen,他是我的高中同学,高中信息竞赛获得过国家前12、是物理竞赛国际集训队成员,他主要做 engineering 方面的工作。他之前和我们一起做了电影的项目,对我们创业项目很感兴趣,所以公司还没成立他就来了。

我们最近加入了一个专门做视频的成员,他之前在以色列自己经营一个 production studio,现在准备到美国和我们一起做这个事情。我们团队目前全职只有四个人,但我们有很多 intern 和 part-time,大多是 MIT、Stanford 的博士和本科生,大多都有竞赛经历或者发了很多 paper,所以团队技术背景很强。

高中时我在 Quora 实习,认识了 Quora 的 CEO,和他 catch up 的时候聊到了我们的 idea,他非常感兴趣,帮我们介绍了后来的领投 Nat Friedman。我们给 Nat Friedman 展示了初步探索的成果,他也很感兴趣就投了。

Chenlin:我对创业的热情一直高于做学术。我和 Demi 在某些方面非常相似。我们都是从国内高中直接去美国读本科,认识很多年了。Demi 小时候就喜欢写作和绘画,我也有类似经历,花了多年时间学二胡和画画。小时候我就想象,如果有工具可以让我把想法直接画出来,就像哆啦 A 梦的工具箱一样该多好。这个想法一直延续到现在,成为我一直想实现的梦想。我们俩最神奇的地方就是,都有很强的技术背景,又都很喜欢艺术。在创业之前,甚至独立地参与了一些相似的项目,这种巧合让我们感觉非常契合,她给我讲对未来产品的设想和规划,我一听就觉得,我也是这样想的。

海外独角兽:你从高中一直参加计算机竞赛,是国家队里少有的女性成员,这样的经历对你创业带来了怎样的影响?

Demi:当时打竞赛纯粹出于热爱,觉得计算机非常有意思。现在看来打竞赛的经历让我在 engineering 方面比较有优势,写代码特别快,因为有些实时比赛,从读题到写对程序必须在五分钟内。我们现在也有些搞竞赛的实习生,他们也对 scaling 中的 engineer 工作很感兴趣。

海外独角兽:半年前,只有 Runway在做视频生成,产品效果不如 demo,大家也觉得这块技术很难。如今 Pika Labs 等创业公司涌现,都实现了不错的效果,相关论文也多了,有人评价 Runway 的技术被追平了。你们怎么看这个行业的变化?

Demi:我觉得行业内之前的 player 没有很强的技术背景,优势在于先开始做这件事情。Pika 非常幸运的一点也是占据了先发优势,这也是我急着创业的原因——因为我看到了 AI 视频生成技术进展迅速,但其他人都没开始做。1 月份我们产生创业想法时,Runway 还没发布视频生成模型。当时所有 VC 都不看好视频行业,因为从商业化角度,他们只看到现在的视频生成模型还很不理想,但我们一直在做技术,我们知道速度的变化很快,进展非常 promising。现在随着技术的发展逐渐显露出来,越来越多的人开始做这件事。所以创业时我非常着急,觉得视频生成行业可能很快要火了,要抓紧做。

过去几个月,AI 视频生成已经取得了很大进步。如果看去年 AI 生成视频的效果,再看今年 3 月份的,再看最近一两个月的,你会发现视频生成模型的发展非常快。可能在不久的未来,也许明年,就能达到 AI 图片生成的效果。虽然现在视频模型没有那么完美,但图片模型在一年半前也不好,现在已经非常好了。

Chenlin:现在 Runway、Genmo、Imagen Video 等,生成的视频在质量上相差不大。大家似乎都卡在一个瓶颈上,没有人真正冲破。虽然宣传视频都不错,但实际使用有很多问题,比如存在不少 “artifact”,流畅度、时长不够。虽然 Runway 现在有 extension 功能,但效果也一般,如果我想要一个复杂、有逻辑的动作,比如让一个机器人先往前走,再右转,再左转,Runway 的 extension 功能是做不到的。行业里还没有人突破。这也是让我们兴奋的原因,还有很多技术创新和突破的空间。

海外独角兽:从创业到现在短短六个月时间,Pika 的技术、产品、融资进展都很快,在这个过程中有哪些是预料之中的,有哪些是之前没预想到的挑战和困难?

Demi:也许六个月前不会想到现在的发展,我们的发展的确是比较顺利,四五月融了 3 轮,收获了将近 50 万用户,每周有上百万 generation。

但对于现在的发展我们并不意外,可能我们还觉得现在的发展和预期中比起来,做得还不够好。我们团队之前设立了非常 ambitious 的目标,想在暑假发布一个新产品,实现百万用户,然后再融一轮。我们的融资时间比预想的要早,还有一些细节上和设想中不一样的地方,比如早期 marketing 的时候我们试了很多方法,没有想到其中一些方法会发挥作用,帮助我们获得了很多用户。所以我们会继续做更多尝试。

海外独角兽:领投了你们 Pre-Seed 轮的投资人 Nat Friedman 非常有名,你跟他接触过程中印象比较深的是什么?他给你们提过什么好的建议?

Demi:我们的投资人非常 founder-friendly,非常 supportive。我们融资其实都是 pre-empted,所以其实没有跟很多投资人聊。非常幸运的是我们的投资人非常友好,给了我们很多 hands-on advice,他给的建议很难列举,都是针对一些特定问题给我们非常具体的建议。他回复消息很及时。

他也非常了解技术,有时还会写写代码。比如说我们有时候要改一些代码,他就给我们提供了一个专门改 code 的 plugin,还帮我们写过一个下载数据的脚本。

02.

视频生成的 GPT 时刻

海外独角兽:如何更好的理解视频生成技术,它和图像生成有什么相同和不同?

Demi:AI 生成图片和 AI 生成视频的模型有共通之处,它们相比于语言模型就是完全两类模型,有专门生成图片或者视频的模型,比如 diffusion model。

视频有很多和图片不一样的问题,比如要确保视频的流畅性、确保动作,视频比图像更大,需要更大的 GPU 内存,视频生成需要考虑逻辑问题,还要考虑如何生成,是一帧一帧生成,还是一起生成,现在很多模型是一起生成,生成的视频就很短。但如果要一帧一帧生成,又要怎么做?很多都是图片生成不会面临的新的技术问题。

Chenlin:视频的每一帧都是一张图片,但比图片困难得多。每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是个相当复杂的问题。在训练时,处理视频数据时要处理多张图片,模型需要适应这种情况。比如,如何将 100 帧图片传输到 GPU 上是一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。

此外,控制视频生成更难,因为模型需要生成每一帧发生的事情,而用户不会希望为每一帧都提供详细的描述。此外,视频生成涉及到更多的空间维度,让问题变得更复杂。再加上互联网上视频生成的训练数据集相对于图像更少,也给获取高质量数据增加了难度。

图片

海外独角兽:现在视频生成有哪些关键点需要突破?

Demi:首先是时长,跟时长很相关的是动作的意义。所有模型都很容易做一个 extension 的功能,把视频时长延长很多,但它并没有真的延长,因为它生成的动作没有意义。比如说我们可以做 20 秒的走路视频,但它可能做不了比如说走路、翻滚、奔跑之类的一个体操系列。所以我们不仅要延长视频制作的时长,还要关注动作的意义,看它到底能做多复杂的动作。

视频的清晰度也需要进一步提高。尽管清晰度方面已经有突破,但还没有提高到电影级的水平,现在生成的视频一般是 720p 分辨率,视频的流畅性也不够理想,特别是一些细节的 texture。还需要考虑 general artifact 的问题,比如说一个人有两个头,就是这种明显不符合常理的问题,也是需要避免的。

海外独角兽:现在视频生成的技术收敛了吗?是否像语言模型那样有了确定的技术路线,通过 scaling 就能获得很大的提升?

Chenlin:现在还没有收敛,大家都在往各种方向尝试,每个人都认为自己的模型是最好的,可能有人认为 autoregressive 最好,有人认为 Masked Model 最好。Pika 也不能完全算 Diffusion Model,我们开发了很多新东西,是一种新的模型。

?

Masked Language Modeling(MLM):指通过让模型预测文本中某些被掩盖的词语来训练模型,帮助模型理解上下文和语法。相对于 autoregressive 预测下一个Token,MLM 更像是“完型填空”,BERT 是 Masked Model 的典型代表。

现在语言模型的路线很确定,有一个原因是 OpenAI 投入了很多资金去试,为什么 GPT 没有用于视频,可能因为他们的资源、人力都集中到了文本模型上。如果有一个公司投入很多资金,也许 diffusion model 也能做出不错的语言模型。但大家既然已经看到 OpenAI 的方法奏效了,就觉得没必要花费大量资金去投入别的方法。

而视频还没到那个阶段,所以我觉得未来往什么方向走都有可能,比如 GPT 的方式可能在某种程度上适合,因为 GPT 可以捕捉上下文,而视频中也需要一个上下文,相当于每一帧都需要考虑整个系统。我觉得最终还是希望能够利用每个模型最擅长的那一部分,因为视频可能每一帧仍然是一张图片,那是不是 diffusion model 可以生成得更好,是不是应该同时使用 GPT 和 diffusion 网络,我觉得最后会有很多方式可以构建这样的模型。

海外独角兽:在你们看来,AI 视频生成什么时候会迎来 GPT 时刻,如何去形容这样的 GPT 时刻?

Demi:我希望明年就可以实现。给用户的感受就像 ChatGPT、Midjourney v5 那样,有一个显著提升。各方面都需要有改进,比如说视频生成模型的创新,engineering,包括数据、scaling 等等。

Chenlin:我觉得目前视频生成处于类似 GPT-2 的时期,很可能在未来一年内有一个显著的提升。如果回顾图像生成,我记得在 2018 年时,我们实验室的博士后提了一个酷的想法,“如果以后维基百科的插图,都能根据维基百科的描述来生成该多好!”,大家听了都觉得是个很遥远的目标。然而到了2021年,已经有了 stable diffusion 和大模型。仿佛技术的发展时间被大大压缩了。所以我认为视频生成的突破也会比想象中快,到那个时候,生成视频应该是一个非常可控的过程,我们应该能够以更自由的方式生成任意长度的视频,而且生成的视频可以是任意长度的,人们可以像导演一样控制主角的行动,比如去咖啡馆喝咖啡,然后去学校上课,再运用我们的产品把所有片段拼起来成为一个完整的小短片。

海外独角兽:在实现视频 GPT 时刻这件事上,创业公司会扮演什么样的角色?在你们视角中,视频生成领域未来会呈现什么样的格局?

Chenlin:我认为视频领域的竞争可能会类似语言模型的竞争格局——一家公司发布新模型的时候,他们内部可能已经有了更先进的模型,领先其他公司一到两年。我认为未来在视频领域也会是一家公司领先一到两年、在冲锋,其他公司在追赶。

海外独角兽:形成这种差距的原因在哪里?

Chenlin:首先在技术方面,例如团队是不是最聪明,是否是最创新的团队,其次也和团队相关,团队需要一个清晰的目标,并一步步去执行这个目标。例如,数据是一个重要问题,处理一个数据集并不简单,比如我们要获取到 10 亿条数据,过滤和标注 10 亿条数据不是简单的事,团队要有能力处理整个流程,不会有特别多团队能够把这个流程做得特别好的。

海外独角兽:在视频生成领域什么样的数据算高质量的数据?

Chenlin:首先是像素,就是我们说的画质好不好,然后看审美和艺术构图,第三方面是要有动作,并且这些动作是有意义的,比如电影里面其实有很多很漂亮的视频,但大部分动作都是人站在那边动嘴巴,虽然这些画面非常漂亮、也是很多著名导演专门设计出来的,但如果把它们用来训练模型不一定能完全训好。因为如果只用这些数据而不用其他内容的话,训出来的模型可能真的就学到后面所有人就只是在动嘴巴,也没有其他有意义的动作。

另外,视频的长度也很关键,如果模型都在 1 秒的视频上进行训练,那么想让模型去生成 30 秒的视频难度就很大,要么需要收集更多更长的数据让模型学习,要么就去重新训练模型的算法,让它只通过学习 1 秒的视频也能生成 30 秒的视频。所以数据创新或算法创新是必不可少的。

对于我们来说,版权始终也是一个重要问题,尤其在美国。我们肯定会与美国本地的律师团队合作,共同研究如何解决版权问题。

海外独角兽:你认为视频生成和 LLM 相比,哪个领域的人才和团队更稀缺?

Demi:长期来看,视频行业的人才可能更稀缺。视频行业不能看现在,要看未来。我们发布第一个产品的时候,还没有开源模型,我们自己训练模型然后发布。最近由于开源模型的出现,导致更多 player 进入这个行业,但这个现象是短暂的。

相较于 LLM 的发展已经有了比较明确的路线,只需要不断提升 Scaling,如果想要做出很好的视频模型并且想投入商用,还需要在模型架构和算法层面做出技术突破。举例来说,视频都是 Sequence of Images, 现在的方法是所有 Images 一起生成,受到 GPU 内存的限制生成的视频都很短,所以我们需要新的方法才能生成更长的视频。再比如,视频生成模型领域可能还没有像 LLM 的 Scaling Laws 那么清晰的原则或规律出来。

视频生成模型还需要模型的创新,也需要很多的 engineering,这件事情不是所有人都能做成的。哪怕在 LLM 领域,OpenAI 也掌握了技术壁垒,所以即使现在有了 LLaMa 这样的开源模型,有很多人能做很多事情,但只有 OpenAI 能做 GPT-4。

海外独角兽:Pika 有没有信心成为视频生成行业里技术最强的团队?

Demi:我们有这个信心,这也是我们想做的事情,我们想做技术最强的团队,之后我们可能还会招更多人。

海外独角兽:如果想要保持住先发优势行业领先地位,需要做什么?如何建立公司的护城河?

Demi:首先要有先发优势,然后要不断积累资源,包括用户资源、数据和 GPU 资源等等。技术的发展和资源的积累其实是一个滚动的过程,比如说积累更多用户也会有助于我们训练模型。技术团队也非常重要,要招募更多技术人才。

Interface 设计方面也很重要,最后很有可能一部分是技术,另一部分是设计与技术相结合,设计会为技术发展提供灵感,技术也可以支持设计,这个壁垒可能会越来越近。

海外独角兽:当年 Stable Diffusion 发布时,由于模型较小,对算力的需求较低,社区也做得很好。视频领域对算力需求较高,是否会因此导致开源贡献有限,有意思的东西更多由像你们这样的专业公司来完成?

Chenlin:我认为开源社区可能没有足够的算力来训练新的视频模型,因为训练一个新视频模型需要非常多的机器。对于 Stable Diffusion,有人可能用 8 张 A100 就能从头开始学习,并得到不错的结果。但对于视频模型,用 8 张 A100 可能不够了,可能无法训练出一个好的模型。而且视频模型本身的问题还没得到解决,因此大家可能会遇到一些瓶颈。首先,模型性能可能不够好,其次,一些算法方面的问题也不够好。但是修改模型、架构,修改算法都需要从头开始转换模型,我认为开源社区的人,甚至包括一些高校的人,没有这么多机器用来这些探索性工作。因此,我的理解是,开源社区会面临很大挑战,除非有一天像 POTX 或 TAI 这样的人有很多卡,愿意做慈善,开源一个模型。除了一些大公司开源模型外,普通开源社区很难进行探索性工作。

我们相信视频最终可能需要像训练 GPT 那样的大规模算力,现在大家还没使用那么多算力,一方面是因为视频模型还没达到像 GPT 那样的水平,另一方面是因为还有一些架构和技术上没解决的问题。我们相信这些问题改善后,未来会有新一代的视频模型达到类似 GPT 的规模。

该视频由 Pika Labs 团队的 Matan 仅用一天制作完成,而在过去,这样的广告要耗费一个 30 人团队一个月时间

03.

要做最好的技术,

也做新一代Interface

海外独角兽:前阵子你们发布的花朵视频效果非常惊艳,即将发布的新产品会有什么大的变化?

Demi:我们会发布新的模型,新产品和以前比会有很大的变化,首先肯定是生成质量的提升,能够生成的内容风格会更多,其次,编辑上也会更加灵活,我们会提供画布延展、局部重绘、视频时长拓展等功能。使用上除了 Discord 之外,我们也会上线全新官网,用户可以直接在网页端进行内容生成和编辑。我们计划明年推出能投入商用的产品,可能暂时不能制作整部电影,会先做影片中的一些素材或者 short clips。

海外独角兽:你们的模型现在是第一个,还是已经是第二个或者第三个版本了?

Demi:我们其实训练了很多模型,未来即将发布的是最新的版本。

海外独角兽:为什么 Pika 的艺术家生成的视频效果很惊艳,普通用户在 Discord 里生成的视频效果还没那么好,产品的使用门槛是否比较高?

Demi:一方面因为我们的艺术家用的已经是新模型了,模型本身就提高了很多。在生成花朵视频时,我们非常注重视频的连贯性,有很多方法可以控制视频的连贯性,比如说 prompt 一致,或者用 seed,用图片去控制。

另一方面,我们也计划提高产品的易用性,有时用户可能上传低分辨率的图片,或者复制了其他 prompt,在我们这里可能不适用,导致效果不佳。这些问题在我们的下一代版本中都将得到改善。

海外独角兽:Pika 团队现在是三个技术背景很强,还有一个视频行业的,那现在是谁主要负责产品设计,包括模型设计、整体的产品交互,以及怎么定位,最大的产品经理是谁?

Demi:因为我们团队人特别少,所以工作职责的划分比较模糊。最早的时候我们三个一起写代码,当时没有分谁做谁的。现在每个人都会有一个重心,比如说我高中同学主要做 engineering,我的co-founder 主要做 model。我主要做任何其他项目的事情, operation、product、融资都会去做,这也是创业公司的常态。不过这不是长期的事情,在有些事上我不一定是最合适的人选,我们今年年底会开始多招人。

海外独角兽:是否可以谈谈你们对产品设想、产品设计和迭代的方式是什么样的?你们和用户之间的沟通是什么样的?

Demi:关于产品的想法可以分为长期和短期。长期我们想做的不仅是一家公司,而是希望用 AI 改变视频行业,重新设计视频制作的 interface,给视频创作者带来完全不一样的体验。如果做成这件事,我觉得它的影响力会超越一家公司的影响力。另一方面我觉得,现在正处于 AI 发展过程中一个非常特殊的历史时刻,我们有机会用 AI 实现任何事情,所以我们希望给视频行业,乃至更广泛的内容创作行业的 interface 带来颠覆性的改变。

我们对公司 high level 的想象是,未来我们不仅想做最好的技术,也想做非常好的 interface,用技术去实现更好的interface,用 interface 来指导技术发展。

长远来看,我们未来的关注会更偏向用户端。现阶段我们和用户的交流在很多方面帮助产品发展,比如我们会记录用户的 interaction,比如用户上传或下载视频的行为、然后基于 RLHF 来改进模型。用户提供的数据也有助于我们进行产品的设计和迭代。

海外独角兽:你们理想中新的 Interface会是什么样的?

Demi:现在很难描述这个新的 Interface 会是什么样的,我现在能想象出来的 Interface 可能也不会是最好的,我们刚刚进入这个行业,这会是一个探索的过程。

海外独角兽:Pika 目前用户以个人用户为主,未来会更针对电影行业、广告行业还是短视频行业?对于目标受众有没有规划和讨论?

Demi:未来还不确定,但短期内会有比较具体的目标,比如明年上半年我们的目标主要是现在的 AI 用户。比如 Midjourney 已经有几亿美元的收入,有上千万用户,这是一个非常确定已知的市场,我们刚开始可能会偏向这一类对 AI 有热情、愿意尝试 AI 技术的用户群体,可能是同一批用户或者比他们更多,这是我们短期未来几个月内的目标。

现在的用户里,有出于兴趣的个人用户,也有处于工作目的的专业用户。AI 发展得非常快,等未来技术更加成熟了、我们有了更加先进的模型,可能会重新规划一下目标受众。

海外独角兽:现在 Pika 生成视频默认是 3 秒,这个时长可能很难商用,如果技术成熟到能给用户初步创造商业价值,还需要多久?产品要做到什么样才能达到这个第一阶段目标?

Demi:我们其实希望明年就能实现。现在不能确定视频时长能达到多长,可能不能制作一个完整的电影,但其实很多电影的片段就是 short clips, 所以我们希望明年至少在一定程度上能进行商用,可以帮助用户生成一些可以使用的素材或者片段,就像 Midjourney 的图像生成工具给用户提供一些商业价值。

明年视频时长可能会比现在长几倍,但还是小于 1 分钟。但其实很多电影或者商用广告的一个场景其实一般也就是几秒钟。所以说一方面我们会延长视频的时长,同时我们也会注重改善视频生成的质量,我们希望生成的视频中不要出现 artifacts、视频要好看、要高清、动作要更完美,确保即使比较短也能用,也可以把它们拼接到一起。

海外独角兽:很多人认为 Midjourney 产品取胜的关键除了技术,还有数据和审美。Pika 团队在这方面是怎么考虑的?内部会如何评估视频质量?

Demi:我们团队非常重视审美,我们也意识到不是所有的工程师都具备审美能力。团队现在有两位艺术家,最近也在面试更多艺术家专门做审美方面的工作。我们的团队很小,大家每天都在一起工作,因此在设计和技术方面的协作非常密切。艺术方面的人可能会提出设计建议,然后我们学习并进行测试,整个团队的沟通非常紧密。

Chenlin:视频数据处理的工程量很大,我们也雇佣了不少外包团队来标注数据。视频审美、评估的难度很大,需要艺术家来把控。我们虽然也有一些度量标准,但好看与否很难量化,最终取决于艺术家的感觉。就像 David Holz 经常说,他们公司地位最高的人是艺术家,因为艺术家可以决定哪个模型被发布,决定要用怎样的数据训练模型。模型生成的图像实际上就是训练数据集的一个缩影。如果训练数据集不够好看,模型学到的人物也不会好看,因此最终你需要一个具有艺术审美修养的人,他来选择数据集,把控标注的质量,并及时提供反馈。

海外独角兽:创意内容生成行业有不少创业公司,如何看待 Midjourney、Genmo、Typeface 等竞争对手?

Demi:我其实不是很喜欢去想一些竞争对手。可能很多人会问我们怎么跟 Runway 去竞争,但是对我们来讲,我们想做的事情现在没有人能做成,这不是竞争的东西,现在我们是在跟这个技术、跟我们自己去竞争,我们不再想抢占市场,而是要先把事情做成。另一方面,竞争对手也是在动态变化的。我们主要还是想做成 AI 视频生成这件事情,因为我们对这件事情充满热情,而且觉得它非常有意义,也非常有挑战性,所以如果竞争对手想要和我们合作,我们也非常欢迎。

也有很多人会说,以后 Midjourney 可能会成为你的竞争对手,但其实 Midjourney 的 Vision 是想做一个 3D 实时的世界,Pika 的目标是做一个新的 Video Making Interface。

海外独角兽:怎么看视频生成和视频编辑的关系?

Demi:视频生成本身也有编辑的成分,我们如果做好一个基础模型,然后在基础模型上去做一些应用程序是比较简单的。就像在图片生成领域,有了基础模型,比如想做一个手绘生成照片的应用很简单。到最后,视频生成和编辑的边界可能会很模糊。

短期内我们不会做特定类型的视频编辑,不会和剪映、Premiere 之类的工具走到一条赛道上,但我们可能会覆盖 Adobe After Effect 里的一些功能,比如单个视频的内容编辑、特效编辑功能。

海外独角兽:未来一年里公司在整体发展层面最关心的三个问题是什么?

Demi:第一是想招人,现在我们忙着做产品的升级,但是因为现在人比较少,之后我们还是会招募更多成员;第二,我们想去设计一个新的 Interface;第三个就是我们还想做一些技术突破,希望明年的技术能够至少在一定程度上达到商业化标准,能在简单的 case 上得到应用。我们希望这个视频生成工具可以让每个用户,包括更广泛的大众都能使用,都能生成好看的视频。

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

来源:海外独角兽