为什么本土大厂造不出全新的ChatGPT?

2023-02-16

ChatGPT革命,掀起了全球科技竞赛的巨浪。

据报道,因为ChatGPT大热,三星、SK 海力士高带宽内存接单量也大增,最新的 HBM3 解决方案价格已经翻了 5 倍。

国外的ChatGPT还没弄明白,国内的“文心一言”已经开始行动了。

最近澎湃新闻、大众日报、上游新闻、封面新闻、大象新闻、每日经济新闻等新闻平台,

钛媒体、新浪财经、证券之星、电脑报、Tech星球、36氪等财经媒体都轮番宣布接入百度“文心一言”。

除了媒体外,携程、爱奇艺、集度、金蝶、智联等企业也加入文心一言生态圈。

甚至连少林寺都宣布介入了“文心一言”。

不仅是百度,阿里、京东、网易、小米等一线大厂也紧随其后,纷纷承诺了对ChatGPT的投入和开发。

说到底,ChatGPT的火爆还是引发了许多人的思考,其中就包括习惯“观望”的互联网大厂。

但对于市场的普遍观点来说,算法训练是一件没有办法弯道超车的事情。

同时也可以具体到国内的技术发展上,第一时间便寻求变现或是以能够看得见的变现为投入基础,一直是国内普遍存在的缺点。

这种想法从某种程度上堆高了大厂的投资收入,但也压垮了国内众多行业深度发展起来的低线。

也可以说,国内创业公司对风险超强的把控,以及经久不息赚快钱的心态,让越来越多的新兴行业都有了一个“能看到头”的未来。

不过,对于国内厂商来说当下最关键的是,如何确定一个具体的应用场景。

一、搜索引擎是中国AI的新起点?

搜索引擎的ChatGPT之争将难以避免。

谷歌2022年Q3财报显示,搜索引擎的广告收入占其广告收入的72.57%、总收入的57.23%。

搜索引擎在广告层面的收入,显而易见。

紧接着,微软(MSFT.US)于北京时间2月8日宣布推出由OpenAI提供技术支持的最新版Bing(中文名“必应”)搜索引擎和Edge浏览器。

一夜之间,Bing和Edge浏览器在AppStore下载量猛增,Bing的下载量已经上升到AppStore免费应用榜中的前十名。

此时,根据Statcounter GlobalStats数据显示,2022年全球搜索引擎市场份额中,谷歌为92.42%,必应市场份额为3.45%。

在微软企图通过OpenAI重新对抗昔日的老对手谷歌,而引发的ChatGPT争夺战之时,国内互联网巨头对于ChatGPT已经从关注转向发展。

截至目前,从相关技术到项目名称再到开放日期,百度是公布信息最明确的国内科技公司。

作为在人工智能和自然语义处理领域积累最多的中国互联网公司,百度早就布局了深度学习大模型“飞桨”,甚至用通用AI芯片“昆仑芯”进行训练。

这些是百度训练“ChatGPT”的基本环境和前提。

不仅如此,据悉,百度CEO李彦宏2023年一季度OKR关键任务为“引领搜索体验的代际变革”,这意味着百度搜索或将全线接入文心一言,搜索产品将迎来颠覆性变化。

此外,近期有媒体报道称,字节正悄悄准备重启已经关停了两年的悟空搜索,如果对ChatGPT产品与搜索工具的关系进行想象,不难看出字节同样对ChatGPT的“兴趣”。

很显然,当一大堆AI公司都在梦想着造出自己的ChatGPT之时,搜索引擎巨头们则希望用其彻底改造搜索引擎行业。

结合来看,在广泛的应用场景之下,即时的搜索工具似乎是弥补ChatGPT“离线模式”的不足,亦或者将ChatGPT赋能搜索工具提高搜索引擎的营收,而这些都成为了当下互联网大厂角力的根本原因。

在众多搜索引擎玩家纷纷宣布踏入“搜索引擎+ChatGPT”的当下,微软已经发起了攻势。

北京时间2月8日一早,“新必应”上线,简介是:“提出实际问题。获取完整的答案。”

与互联网初代所不同,进入移动互联网时代后,每一个移动端的App几乎都是一座信息“孤岛”。

也是在众多内容社交平台间断性爆火的背景下,国内搜索引擎使用率开始下滑。

根据CNNIC发布的《第50次中国互联网络发展状况统计报告》显示,截至2022年6月,我国搜索引擎用户规模达7.88亿,较2021年12月减少737万,占网民整体的78.2%,2020年6月,我国搜索引擎用户的使用率为81.5%。

两年时间,搜索引擎网民使用率同比下降3.3%。

如果说内容方在过去需要依赖搜索引擎,那么如今就是搜索引擎需要依靠众多APP来实现自身以外的内容扩充。

可以说,为了完善自身的内容池,搜索引擎还需要进一步解决自身与APP之间的“壁”。

经过各大行业对ChatGPT长达三个多月的关注,C端更是对“AIGC”充满了想象,那么在如此内卷的赛道中,互联网大厂除了对“文本生成”类应用场景具有“幻想”以外,是否存在着更“高阶”的应用场景呢?

  1. 谁能成为中国版的ChatGPT?

人工智能的技术栈可以分为四层:芯片层、框架层、模型层和应用层。

只有千亿参数规模以上的大模型,才可能出现“突现能力”,而具备“突现能力”的大模型是ChatGPT得以诞生的必要条件。

训练一个千亿的大模型是对算力、算法、算据的全流程考验。

公开资料显示,ChatGPT的前身GPT-3参数量达到了惊人的1750亿,训练一次所要消耗的成本就高达近8400万元人民币。

2022年谷歌研究院联合DeepMind和斯坦福大学发表论文,研究了谷歌、DeepMind和OpenAI的5个语言模型系列的8个“突现能力”,得出结论:

只有模型达到GPT3的规模, 即参数大于1000亿, 模型才有可能形成“突现能力”。

国内大厂能不能做出ChatGPT?先发条件就是是否拥有千亿参数规模的大模型。

先看呼声最高的百度。

“文心一言”被很多人认为是“最可能的ChatGPT国产替代”。

百度文心是“纯粹”的自然语言模型,有2600亿参数规模的ERNIE 3.0 Titan的训练框架, 训练输入都是结构化的文本内容。

根据官方2022年的公开资料,ERNIE 3.0 Titan模型和GPT3.0模型在知识问答数据集上的对比效果,准确率比GPT3.0高8%。

此外,百度还有上文提到的全栈打通的Paddle训练框架生态,对标的是PyTorch和TenserFlow。

但百度的问题是,在算法、算力、数据、场景上都非常理想,但在“产品”上还有差距。核心搜索业务过于强势,以及技术思维影响过大,导致了其他产品能力有点变形。

再看阿里。

近日,阿里也公布了申请的“人机对话及预训练语言模型训练方法、系统及电子设备”专利。

另据天眼查显示,阿里巴巴达摩院(杭州)科技有限公司发生工商变更,注册资本由1000万人民币增至3亿人民币,增幅高达2900%,持续投入人工智能(AI)等底层技术。

2022年9月,阿里发布最新大模型“全家桶”——通义M6。

公开资料里能看到,M6的训练数据包括300GB文本和2TB图像, 作为对比,GPT3.0用了45TB文本训练,华为的盘古号称用了40TB, 而阿里的M6训练数据少的可怜。

而且M6的带头人杨红霞已经在2022年9月离职,未来 M6走向何方,也要打个问号。

科技公司华为也一直被关注。

华为2020年开始在大模型布局,2021年发布了鹏城盘古大模型。

盘古NLP大模型和百度文心一样,都是“纯粹”的自然语言大模型,宣称有2000亿参数。

最后看腾讯。

BATH四巨头中,腾讯的千亿级别大模型最晚发布。去年4月,腾讯才对外公布了“混元”AI大模型的研发进展。

混元大模型的能力,被强调的是跨模态的“文本-视频”的理解和检索,也就是主要是视频相关。

另外京东云旗下言犀人工智能应用平台宣布推出了产业版ChatGPT:ChatJD,并公布了ChatJD的落地应用路线图“125”计划。

三、国产AIGC还不够“万能”

事实上,仅仅是从本土发展来看,AIGC产业链的发展算不上缓慢。

据量子位AIGC图谱显示,从上游的数据供给、开源算法,中游的行业玩家以及下游的包括文字、图像、视频、音频、游戏等应用场景,关于AIGC的一条初步产业链已经悄然形成,产业生态的完善也为后期的发展奠定了基础,而在不同的应用场景下,已出现了一批代表性的玩家。

需要注意的是,在国内,大多数AIGC的应用场景几乎都聚焦在内容侧。

首先,这是一个短期利润和长期价值的博弈过程。

AIGC烧钱的程度,并不亚于互联网发展的初期。

小冰CEO李笛举过一个例子:若用ChatGPT的方法,以小冰框架当前支撑的对话交互量计算,每天成本将高达3亿元,一年成本超过1000亿元。

AIGC需要一定的工程技术,除了具备固定流动资金的大厂,创业公司即便对应用场景具有清晰的发展路径,也几乎很难按照OpenAI的路径发展。

其次,国内AIGC的生态环境相对来说更独立。

在长期投入的产品上,无论是创业公司亦或是大多数的大厂,几乎都是专注垂直赛道的场景应用。

于是对于国内而言,渴望以最快的速度赶超海外的同时,大多数的AIGC业务其实还处于发展的边缘地带。

此外,据了解,GPT-3的模型参数不开源,仅以付费API(应用程序编程接口)的形式提供给海外用户。

基于此,我们需要清醒认知到的是,现在国内仅仅是处于正在开启智能时代大门的初期,距离生产力的革命还有很远的路要走。

最后,在相关法规尚未形成之时,即便再心急,也可能会功亏一篑。

根据第一财经报道,中国初创公司元语智能在2月3日上线了中国首个“ChatGPT”,名叫ChatYuan,但上线后不久,ChatYuan界面就显示“涉嫌违反相关法律法规和政策,已暂停服务”。

这显示了ChatGPT在中国应用的风险,审查机制及与之相关的合规问题。

ChatGPT在提供回答时不会避开在中国较为敏感的问题。



参考资料:

郭静的互联网圈:ChatGPT爆红,百度、搜狗、360等搜索引擎尴尬吗?

华进知识产权:ChatGPT“中国化”,正在进行中......

剁椒TMT:“按ChatGPT模式做AI,我们一天成本要3亿”

新京报:“中国版ChatGPT”将花落谁家?

中国科学报:ChatGPT火了!国内AI风往哪儿吹