聊聊OpenAI最新的文生视频的技术Sora

西西弗评论·2024-02-19

一个企业想靠技术长盛不衰是不可能的，技术优势只能保持几年。

编者按：本文来自微信公众号西西弗评论（ID：xixifupl），作者：西西弗评论J，创业邦经授权转载。

一个企业想只靠技术长盛不衰是不可能的，技术优势只能保持几年。企业必须抓住技术上短暂的突出，把技术突出变成品牌和生态的垄断，才能“各领风骚几十年”。

01

对一个密切追踪AIGC行业进展的人来说，Sora确实是一个令人眼睛一亮，爆炸式的进展。文生图的技术在过去一年已经有了不少进步，但文生视频的难度大得多，一直也没有明显的突破。

之前Pika的文生视频，在舆论场上也受到了不少关注。但Pika的效果在Sora面前被无情的碾压，完全不在一个水平线上。

这也很容易理解。一家创业公司，就算创始人再天才，用很短时间的积累，有限的资源和算力，能做出的效果，OpenAi 用最优秀的人才积累，海量的算力和显卡资源，没有理由做不出。而且理应做的更好。更何况，在Sora推出前，OpenAI的DALL-E本来也是文生图技术的先行者之一。而Sora采用的DiT技术路线也可以充分发挥OpenAi在大语言模型上的优势。

无论是文生图还是文生视频算法和技术，早就有不少论文提出过，技术方向是清晰的，并不是科学领域的突破。

OpenAI的强大，一方面在于有业界最多的积累，在模型训练上有最多的knowhow，另一方面，在微软的大力支持下，有海量的资源和算力，积累了最多的数据，大力出奇迹。

02

这个技术会带来什么？有些人故作惊人之言，说什么现实不存在了。

人们往往高估技术进步的短期影响，而低估其长期影响。

如果说计算机生成一段以假乱真的视频，就是现实不存在了。那卡梅伦在2009年拍摄的阿凡达，就用计算机生成了完全可以以假乱真的效果，比今天Sora的效果好很多，如果说现实不存在了，多年以前现实就不存在了。

但阿凡达的时代，CG要花大钱的，阿凡达的制作花了3亿美元。今天Sora生成一段60秒的CG，只需要输入一段prompt。

AIGC目前短期最大的应用落地，就是大幅降低生产内容的成本。比如文生图这个技术，现在各家游戏公司用的不亦乐乎。用原先一半的美术人力，就可以做到和过去类似的美术效果。当然，细看质量还不如人做的，但随着技术进一步提高，相信未来游戏美术这项工作，很大程度上会被AI所取代。

大语言模型也是一样，可以在极短时间内成百上千篇生产文字内容。我写两千字，怎么着都得花一小时写。AI一分钟可以写几千上万字。大语言模型诞生后，大量AI生产的内容，充斥平台，特别是今日头条这类基于推荐算法的平台。虽然AI生产的内容质量低，但架不住数量多。单篇质量再好，架不住AI能批量生产的成千上万篇的内容。每篇薅到一点流量，加起来总比单篇多。

AI智能客服，AI智能审核，同样可以取代人，大幅降低成本。

文生视频技术的进步，同样降低内容生产成本。之前有一个MCN找过我，帮我把文字内容制作成视频。我了解了一下他们的制作方法。为了降低视频制作成本，他们做了一个“内容中台”，收集了大量图片和短视频片段，分类标注建立资源库。在制作视频时，就根据文字内容，从资源库中用素材拼接成30分钟左右的视频。这样可以把视频的生产成本大幅下降。然而，即使这样，最终这个MCN还是觉得成本太高，现在开始尝试用AI进一步降低成本。

未来如果文生视频技术进一步迭代，也许有朝一日，输入一篇2-3000字的文章，就可以自动生成一段包括配音在内的视频。那时我也可以追追时髦，尝试一下自己做一些视频。

03

技术进步导致内容生产成本大幅下降，并不是第一次。最早的造纸和印刷术，就是例子，让知识和书籍从少数人才能拥有的奢侈品，走进千家万户，没有造纸术，就不可能有科举制度。没有印刷术，就不可能实现教育全民化。

离我们更近的一个例子是照相和摄像。过去，照相是个很专业的事情，拍张照片要全家出动去照相馆。一般只有纪念日才能去拍。摄像更不要提了，只有电视台这样的专业机构才能搞。后来，照相机胶卷价格下降，照相机走入家庭。但一卷36张，每一张还是成本不低。

后面数码相机出现了，让拍摄一张照片或一段视频的成本接近于零。每个人都可以成为摄影师。再往后，就是手机摄像头出现，每个人都可以随时随地的拍摄图片视频，每个人都是图片和视频内容的生产者。

今天，拍摄真人视频的成本，远远低于用计算机生产一段CG视频。未来，随着AIGC技术的发展，CG也和拍摄真人视频一样，不再是一件高门槛的事情，每个人都能用自己的想象生产CG。

从短期看，AIGC只是降低了中低质量内容生产的成本。大语言模型可以在一瞬间写成千上万篇文章。聪明的学生开始运用大语言模型帮助他们写作业写论文。文生图模型可以让游戏公司大幅减少美术人员的数量。未来的文生视频模型也会让不少CG人员失业。

这个技术长期的影响，不仅仅局限在内容生产行业。

发明数码相机的人，第一个在手机上装摄像头的人不会想到，这些技术造就了数千亿美元的短视频行业。如果没有数码成像技术，手机上没有摄像头，也不会诞生短视频行业，不会诞生抖音/TikTok这样的行业巨头。没有数码成像，估计也不会有无人机航拍，不会有大疆这样的企业。

AIGC会怎么样改变这个世界，我们现在很难预测。正如2000年11月，当夏普首次在手机上安装摄像头时，绝对想不到今天的抖音/TikTok在全球能有20亿月活跃用户，超过千亿美元的收入。

04

关于技术进步，另一件有趣的事情是，发明某项技术的人，往往不是最终的受益者。

数码成像技术的开创者是柯达。1975年全球第一张数码相片即在美国纽约州罗彻斯特的 Kodak 实验室拍摄出来的。柯达最终却因为数码技术取代了胶卷技术，而申请破产。今天柯达已经成了一家市值只有三亿美元的小公司。

让数码相机商业化的是索尼。1978年，索尼公司（Sony）制造出了具有12万像素的CCD，并在1980年发布了全世界第一个商品化量产的12万像素CCD彩色照相机。索尼目前还是数码成像系统的主要玩家。然而，索尼的影像及传感解决方案业务（I&SS）每年的收入大概100亿美元出头，利润大概十几亿美元。而广义的数码影像相关市场，有万亿美元的规模。

2000年11月，夏普首次在手机上安装摄像头。但今天，夏普已经几乎完全退出了手机市场，公司控股权也被鸿海收购。

数码成像技术最大的受益企业是谁，现在看，也许是字节跳动。

技术是很难被完全垄断的，技术也很难长期突出。第一个把锂离子电池方案推向市场的是索尼。1991年，索尼公司获得吉野彰的锂离子电池技术后，与旭化成公司合作，首次将锂离子电池实现了商业化。但今天的索尼已经完全退出了锂电池行业。今天锂电池技术的最大获益者，反而是中国的企业。

一个企业想靠技术长盛不衰是不可能的，技术优势只能保持几年。企业必须抓住技术上短暂的突出，把技术突出变成品牌和生态的垄断，才能“各领风骚几十年”。今天的苹果，已经不再是手机技术的突出者，产品设计也乏善可陈。苹果独步天下的，是品牌，是Appstore生态。

微软、Google、Meta，今天的互联网巨头，都是成功的把技术和产品的短暂突出，变成了品牌和生态的垄断。今天的OpenAI，也试图把在AI大模型技术上的突出，转化成生态上的垄断。但OpenAI能不能成功，还不确定。

就算OpenAI做成了，也不过是美国再出一个谷歌或Meta，进一步加大美国在互联网领域对欧日的优势而已。做不出，OpenAI可能就是柯达或者夏普，成为AI领域成功者的踏脚石。

中国AI技术现在大概落后一年到一年半。看似不长，但OpenAI也在快速发展，所以最近一年，差距没有缩小，可能还扩大了一些。但技术的发展不是匀速的，迟早也会遇到瓶颈，中国也迟早有赶上的那一天。在技术领域，芯片技术的差距和追赶的难度，远大于AI领域。如果芯片最终中国能赶上，AI不过是小菜一碟。毕竟，由于监管限制，OpenAI在中国不具备把技术优势变成品牌心智优势和生态垄断的能力，而技术的优势是不可能永远保持的。

未来的AI领域，应该和互联网比较类似，主要的玩家也只有中美两国。中国企业起步晚，技术差，但最终还是能占据本土市场，技术上也可以逐步赶上。

如果未来没有可控核聚变这个级别的技术突破，中美技术领域的决战就是半导体。其他领域都不重要。中国AI发展最大的拦路虎不是OpenAI，而是英伟达+台积电。

05

我乐于看到OpenAI的发展。技术进步对全人类都有好处，也不可能被一家企业一个国家所垄断。在人类历史上，从来没有任何一项技术的发明，能让发明的国家取得明显的持续竞争优势。即使是核武器这样彻底改变人类战争方式的武器，美国的技术垄断也只保持了短短四年。

现在的互联网舆论场很有趣，美国有一点比中国做得好的地方，就有人如获至宝捡起来，当成美国复兴，中国药丸的证据。他们忘记了，当年的中国是全方位落后，几乎方方面面美国都远胜中国。那时的中国都没完，更不要提现在了。

美国近三十年的技术突破，第一当然是互联网。美国企业成功的把互联网领域的技术优势，变成了对全球（除中国外）互联网生态的垄断。欧洲和日本错过了互联网，也就失去了经济上挑战美国的能力。第二我觉得是页岩气。页岩气技术和美国的资源储备，让美国实现了能源自主。大大改善了美国工业的竞争力和地缘政治态势。页岩气技术虽然有办法赶上，但其他能源缺乏的国家也没有美国的页岩气储备。这个是老天爷赏饭吃，没办法。

其他的这些，比如大模型AI，在宏观层面上，还没那么重要。短期不宜高估其影响。长期的影响也许会更大，但受益者是谁，现在还不知道呢。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。