Sora刷屏三天：挖来谷歌的人才，用着谷歌的技术，抢走谷歌的热搜

远川研究所·2024-02-19

关注

翻开Sora的技术说明书，里面全是谷歌的影子。

编者按：本文来自微信公众号新硅NewGeek（ID：XinguiNewgeek），作者：董道力，编辑：张泽一，创业邦经授权转载。

硅基君这几天可算是被OpenAI的视频生成模型Sora狠狠的刷了一通屏。

明明还没有正式开放，但在国内外社交平台上，几乎每一个Sora放出的Demo视频都能被翻来覆去讨论。

大家对Sora的崇拜，甚至到了拿一个上古时代的互联网经典视频出来，都说它是Sora生成的，还要贴心的配上一个简单的Prompts。

在没有人关注的小角落里，谷歌发布的Gemini 1.5 PRO没能溅起一点水花。

有人猜测，OpenAI如此匆忙的发布Sora的演示视频，就是为了向世界证明OpenAI才是AI行业的突出公司，因为就在几小时前，谷歌才发布了Gemini 1.5 PRO。

从热度上来看，谷歌输的一塌糊涂。

当然，和以往一样，OpenAI发布的Sora，目前只针对部分科学家和艺术家开放，普通人想用到Sora话不知道要什么时候了。

但这一点也不影响全网对Sora的热烈讨论，Sora发布后的48小时内，科技大佬、卖课的、炒股的、创业的都“疯了”。

首先是科技大佬们对Sora发表了自己的看法。

360总裁周鸿祎认为，Sora意味着AGI实现将从10年缩短到两三年。OpenAI的Sora可以吊打 Pika和Runway，原因在于人才密度。OpenAl利用它的大语言模型优势，把LLM 和Diffusion 结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层能力等等。

Meta首席AI科学家杨立昆并不怎么看好Sora，他在twitter上表示一个AI模型可以生成逼真的视频，但并不代表这个AI可以理解世界。

与周鸿祎和杨立昆的长篇大论不同，马斯克简单明了：人类要完蛋了。

股民们在OpenAI发布Sora后，感觉下一个ai风口就在眼前，有机构连夜盘点了国内视频生成相关的公司，甚至出现了Sora概念股。

与股民的热情不同，一些影视从业人员表示，自己的工作岌岌可危。

据蓝鲸财经报道，中国香港青年导演朱智立表示“它（Sora）对电影行业的影响只是一个时间问题，因为它已经把画面做到非常真实、有细节，包括一个女人在东京街头的画面，连脸上的雀斑都能做到非常真实。”

“Sora对宣传片、广告片的影响会更大”朱智立觉得“电影还有剧本、情节、台词等复杂因素，而在广告、宣传片行业，冲击可能会更快到来。如果提示词可以细节到分镜，那AI不仅仅是帮助导演画分镜和视觉参考图了，而是直接可以做成更高效的动态分镜预览，或者等技术更成熟时可以直接用来做成影视作品。”

无论是科技大佬的分析预判，还是股民的热情，影视从业者的担心，硅基君都表示理解，但唯一不合理的就是，Sora刚发布，连排队内测都没开启，OpenAI还没靠Sora赚到钱，就有人开始卖课了？

技术来来去去，卖铲子永不过时。

话说回来，Sora之所以能引起广泛的讨论，原因在于它生成的视频质量真的太好了。为什么Sora效果那么好，技术上有什么特别的吗？根据OpenAI发布的Sora技术白皮书，我们可以略知一二。

先上一个大瓜，Sora的视频生成模型框架，很可能是谷歌DeepMind之前的论文成果。

简单来说，Sora模型效果很好的关键在于，OpenAI训练的时候，将扩散模型（diffusion model）和transformer相结合。

OpenAI训练GPT这类大语言模型的时候，把句子拆分成tokens，放到transformer进行训练。在Sora中，OpenAI将不同尺寸、分辨率的视频拆分成patch，把patch当作tokens放到transformer进行训练。训练完成后再通过解码，把tokens“渲染成”人们可以看得懂的像素。