聊聊OpenAI最新的文生视频的技术Sora

2024-02-19
一个企业想靠技术长盛不衰是不可能的,技术优势只能保持几年。

编者按:本文来自微信公众号 西西弗评论(ID:xixifupl),作者:西西弗评论J,创业邦经授权转载。

图片

一个企业想只靠技术长盛不衰是不可能的,技术优势只能保持几年。企业必须抓住技术上短暂的领先,把技术领先变成品牌和生态的垄断,才能“各领风骚几十年”。

01

对一个密切追踪AIGC行业进展的人来说,Sora确实是一个令人眼睛一亮,爆炸式的进展。文生图的技术在过去一年已经有了不少进步,但文生视频的难度大得多,一直也没有明显的突破。

之前Pika的文生视频,在舆论场上也受到了不少关注。但Pika的效果在Sora面前被无情的碾压,完全不在一个水平线上。

这也很容易理解。一家创业公司,就算创始人再天才,用很短时间的积累,有限的资源和算力,能做出的效果,OpenAi 用最优秀的人才积累,海量的算力和显卡资源,没有理由做不出。而且理应做的更好。更何况,在Sora推出前,OpenAI的DALL-E本来也是文生图技术的先行者之一。而Sora采用的DiT技术路线也可以充分发挥OpenAi在大语言模型上的优势。

无论是文生图还是文生视频算法和技术,早就有不少论文提出过,技术方向是清晰的,并不是科学领域的突破。

OpenAI的强大,一方面在于有业界最多的积累,在模型训练上有最多的knowhow,另一方面,在微软的大力支持下,有海量的资源和算力,积累了最多的数据,大力出奇迹。

02

这个技术会带来什么?有些人故作惊人之言,说什么现实不存在了。

人们往往高估技术进步的短期影响,而低估其长期影响。

如果说计算机生成一段以假乱真的视频,就是现实不存在了。那卡梅伦在2009年拍摄的阿凡达,就用计算机生成了完全可以以假乱真的效果,比今天Sora的效果好很多,如果说现实不存在了,多年以前现实就不存在了。

但阿凡达的时代,CG要花大钱的,阿凡达的制作花了3亿美元。今天Sora生成一段60秒的CG,只需要输入一段prompt。

AIGC目前短期最大的应用落地,就是大幅降低生产内容的成本。比如文生图这个技术,现在各家游戏公司用的不亦乐乎。用原先一半的美术人力,就可以做到和过去类似的美术效果。当然,细看质量还不如人做的,但随着技术进一步提高,相信未来游戏美术这项工作,很大程度上会被AI所取代。

大语言模型也是一样,可以在极短时间内成百上千篇生产文字内容。我写两千字,怎么着都得花一小时写。AI一分钟可以写几千上万字。大语言模型诞生后,大量AI生产的内容,充斥平台,特别是今日头条这类基于推荐算法的平台。虽然AI生产的内容质量低,但架不住数量多。单篇质量再好,架不住AI能批量生产的成千上万篇的内容。每篇薅到一点流量,加起来总比单篇多。

AI智能客服,AI智能审核,同样可以取代人,大幅降低成本。

文生视频技术的进步,同样降低内容生产成本。之前有一个MCN找过我,帮我把文字内容制作成视频。我了解了一下他们的制作方法。为了降低视频制作成本,他们做了一个“内容中台”,收集了大量图片和短视频片段,分类标注建立资源库。在制作视频时,就根据文字内容,从资源库中用素材拼接成30分钟左右的视频。这样可以把视频的生产成本大幅下降。然而,即使这样,最终这个MCN还是觉得成本太高,现在开始尝试用AI进一步降低成本。

未来如果文生视频技术进一步迭代,也许有朝一日,输入一篇2-3000字的文章,就可以自动生成一段包括配音在内的视频。那时我也可以追追时髦,尝试一下自己做一些视频。

03

技术进步导致内容生产成本大幅下降,并不是第一次。最早的造纸和印刷术,就是例子,让知识和书籍从少数人才能拥有的奢侈品,走进千家万户,没有造纸术,就不可能有科举制度。没有印刷术,就不可能实现教育全民化。

离我们更近的一个例子是照相和摄像。过去,照相是个很专业的事情,拍张照片要全家出动去照相馆。一般只有纪念日才能去拍。摄像更不要提了,只有电视台这样的专业机构才能搞。后来,照相机胶卷价格下降,照相机走入家庭。但一卷36张,每一张还是成本不低。

后面数码相机出现了,让拍摄一张照片或一段视频的成本接近于零。每个人都可以成为摄影师。再往后,就是手机摄像头出现,每个人都可以随时随地的拍摄图片视频,每个人都是图片和视频内容的生产者。

今天,拍摄真人视频的成本,远远低于用计算机生产一段CG视频。未来,随着AIGC技术的发展,CG也和拍摄真人视频一样,不再是一件高门槛的事情,每个人都能用自己的想象生产CG。

从短期看,AIGC只是降低了中低质量内容生产的成本。大语言模型可以在一瞬间写成千上万篇文章。聪明的学生开始运用大语言模型帮助他们写作业写论文。文生图模型可以让游戏公司大幅减少美术人员的数量。未来的文生视频模型也会让不少CG人员失业。

这个技术长期的影响,不仅仅局限在内容生产行业。

发明数码相机的人,第一个在手机上装摄像头的人不会想到,这些技术造就了数千亿美元的短视频行业。如果没有数码成像技术,手机上没有摄像头,也不会诞生短视频行业,不会诞生抖音/TikTok这样的行业巨头。没有数码成像,估计也不会有无人机航拍,不会有大疆这样的企业。

AIGC会怎么样改变这个世界,我们现在很难预测。正如2000年11月,当夏普首次在手机上安装摄像头时,绝对想不到今天的抖音/TikTok在全球能有20亿月活跃用户,超过千亿美元的收入。

04

关于技术进步,另一件有趣的事情是,发明某项技术的人,往往不是最终的受益者。

数码成像技术的开创者是柯达。1975年全球第一张数码相片即在美国纽约州罗彻斯特的 Kodak 实验室拍摄出来的。 柯达最终却因为数码技术取代了胶卷技术,而申请破产。今天柯达已经成了一家市值只有三亿美元的小公司。

让数码相机商业化的是索尼。1978年,索尼公司(Sony)制造出了具有12万像素的CCD,并在1980年发布了全世界第一个商品化量产的12万像素CCD彩色照相机。索尼目前还是数码成像系统的主要玩家。然而,索尼的影像及传感解决方案业务(I&SS)每年的收入大概100亿美元出头,利润大概十几亿美元。而广义的数码影像相关市场,有万亿美元的规模。

2000年11月,夏普首次在手机上安装摄像头。但今天,夏普已经几乎完全退出了手机市场,公司控股权也被鸿海收购。

数码成像技术最大的受益企业是谁,现在看,也许是字节跳动。

技术是很难被完全垄断的,技术也很难长期领先。第一个把锂离子电池方案推向市场的是索尼。1991年,索尼公司获得吉野彰的锂离子电池技术后,与旭化成公司合作,首次将锂离子电池实现了商业化。但今天的索尼已经完全退出了锂电池行业。今天锂电池技术的最大获益者,反而是中国的企业。

一个企业想靠技术长盛不衰是不可能的,技术优势只能保持几年。企业必须抓住技术上短暂的领先,把技术领先变成品牌和生态的垄断,才能“各领风骚几十年”。今天的苹果,已经不再是手机技术的领先者,产品设计也乏善可陈。苹果独步天下的,是品牌,是Appstore生态。

微软、Google、Meta,今天的互联网巨头,都是成功的把技术和产品的短暂领先,变成了品牌和生态的垄断。今天的OpenAI,也试图把在AI大模型技术上的领先,转化成生态上的垄断。但OpenAI能不能成功,还不确定。

就算OpenAI做成了,也不过是美国再出一个谷歌或Meta,进一步加大美国在互联网领域对欧日的优势而已。做不出,OpenAI可能就是柯达或者夏普,成为AI领域成功者的踏脚石。

中国AI技术现在大概落后一年到一年半。看似不长,但OpenAI也在快速发展,所以最近一年,差距没有缩小,可能还扩大了一些。但技术的发展不是匀速的,迟早也会遇到瓶颈,中国也迟早有赶上的那一天。在技术领域,芯片技术的差距和追赶的难度,远大于AI领域。如果芯片最终中国能赶上,AI不过是小菜一碟。毕竟,由于监管限制,OpenAI在中国不具备把技术优势变成品牌心智优势和生态垄断的能力,而技术的优势是不可能永远保持的。

未来的AI领域,应该和互联网比较类似,主要的玩家也只有中美两国。中国企业起步晚,技术差,但最终还是能占据本土市场,技术上也可以逐步赶上。

如果未来没有可控核聚变这个级别的技术突破,中美技术领域的决战就是半导体。其他领域都不重要。中国AI发展最大的拦路虎不是OpenAI,而是英伟达+台积电。

05

我乐于看到OpenAI的发展。技术进步对全人类都有好处,也不可能被一家企业一个国家所垄断。在人类历史上,从来没有任何一项技术的发明,能让发明的国家取得明显的持续竞争优势。即使是核武器这样彻底改变人类战争方式的武器,美国的技术垄断也只保持了短短四年。

现在的互联网舆论场很有趣,美国有一点比中国做得好的地方,就有人如获至宝捡起来,当成美国复兴,中国药丸的证据。他们忘记了,当年的中国是全方位落后,几乎方方面面美国都远胜中国。那时的中国都没完,更不要提现在了。

美国近三十年的技术突破,第一当然是互联网。美国企业成功的把互联网领域的技术优势,变成了对全球(除中国外)互联网生态的垄断。欧洲和日本错过了互联网,也就失去了经济上挑战美国的能力。第二我觉得是页岩气。页岩气技术和美国的资源储备,让美国实现了能源自主。大大改善了美国工业的竞争力和地缘政治态势。页岩气技术虽然有办法赶上,但其他能源缺乏的国家也没有美国的页岩气储备。这个是老天爷赏饭吃,没办法。

其他的这些,比如大模型AI,在宏观层面上,还没那么重要。短期不宜高估其影响。长期的影响也许会更大,但受益者是谁,现在还不知道呢。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。