张勇亲自挂帅,阿里加入大模型中国战事

2023-04-12
是大厂的游戏,但不能只是大厂的游戏。

编者按:本文来自微信公众号“中国企业家杂志”(ID:iceo-com-cn),作者:赵东山 邓双琳,编辑:李薇 ,创业邦经授权发布。

一场AI大模型追逐赛,激战正酣。

4月11日,阿里云旗下大模型产品通义千问面世。阿里云峰会上,阿里巴巴集团董事会主席兼CEO张勇首次以阿里云智能CEO的身份亮相,介绍了通义千问的最新进展。

一向以正装公开示人的张勇,穿了一身休闲装,呼应其新身份——去年年底,他宣布亲自挂帅阿里云,“躬身”业务四个多月后,张勇带来了首个待检验的作品通义千问。他表示,阿里巴巴所有产品未来都将接入通义千问大模型,进行全面改造。

ChatGPT的问世和迭代速度,重新定义了技术变化的日新月异。在阿里之前,百度已率先“交卷”,推出基于新一代大语言模型研发的生成式AI产品文心一言,并展示了其在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。

更多不甘落后的互联网大厂和创业者正在路上。

3月底,腾讯总裁刘炽平在财报电话会上说,腾讯正在加速推进大模型混元;3月29日,360集团创始人周鸿祎在一次活动上预演示了360尚未正式发布的大模型应用产品,他称:“GPT是场新工业革命,其意义超越了互联网、iPhone的发明。”

《中国企业家》从接近字节跳动人士获悉,字节跳动版的ChatGPT已在内测,但内测之后,体验效果不好,预计在9月上线,也有可能提前。不久前,原阿里达摩院大模型M6带头人杨红霞加入字节AI lab,参与语言生成大模型的研发,直接向副总裁杨震原汇报。

随着时间的推进,行业的紧迫感越来越强,节奏越来越密集,仅在4月10日这一天,就有3家公司宣布推出大模型及应用产品:搜狗创始人王小川正式官宣入场大模型创业,年底发布大模型产品,已获得5000万美元启动资金;商汤宣布推出商汤日日新大模型;昆仑万维和奇点智源合作自研的国产大语言模型将于4月17日启动邀请测试。

这场AI大模型之争,让沉寂了很久的中国互联网市场突然变得亢奋,即使在当年“百团大战”、生鲜电商缠斗最激烈的时刻,头部大厂也没有拿出“All in”押注未来的架势。对标ChatGPT的大模型,显然被大厂当作开启下个时代的钥匙——谁能最先触摸到AI生态的潜能边界,谁就能掌握话语权。

然而,训练大模型并非易事,大厂和创业者们互相竞逐背后是一场财力、技术、算力、人才等资源的综合较量。但在大厂内部看来,此轮关于大模型的创业,如果只是一个大厂的游戏,说明中国的创新还是没有走出原来的怪圈,AI大模型创业应该是一个万众创新的游戏。

01技术、算力、人才的角逐

从发布信息来看,阿里对通义千问的定位,已经不局限于简单的AIGC概念上,而是如何让AI的能力真正应用在更实际、更多样的场景上。

阿里的大模型分内外部两个路线——一方面将与集团内部产品结合,可以预见,通义千问将对天猫、淘宝、高德、钉钉等业务应用带来直接的商业价值,据了解,钉钉、天猫精灵将率先接入测试,将在评估认证后正式发布新功能;另一方面,阿里云表示将开放通义千问的能力,帮助每家企业基于通义千问打造具备自己行业能力的专属大模型。

阿里大模型由阿里云智能CTO周靖人负责,周靖人毕业于中国科学技术大学,获哥伦比亚大学计算机博士学位,曾任微软研发合伙人,2016 年加入阿里,任阿里云首席科学家。他告诉《中国企业家》,阿里选择在此刻公布通义千问,并非完全为了“赶时髦”。

“阿里从2019年开始,就在投入各种各样训练大模型的研发中。但ChatGPT以一个非常好的产品形态出现,教育了全社会,现在的确是一个很好的时间节点。如果我们在去年9月、10月讲预训练大模型,也许大家都不会感兴趣。”周靖人说。

事实上,无论是阿里还是百度,能快速推出自己的大模型及应用,都源于两家在过往的技术积累。

2019年,百度便推出了文心大模型ERNIE 1.0。目前,ERNIE 3.0每天接受数十亿次用户的搜索请求,这让文心一言能够基于一个庞大的、高效的数据池,快速地学习和改进;阿里则于2021年连续发布语言大模型 Plug(后更名为AliceMind)和多模态大模型M6,去年9月,两个大模型合并为阿里通义大模型。

再看看文心一言由的团队——由百度CTO王海峰出任总指挥,团队核心成员还包括百度集团副总裁吴甜、百度技术委员会主席吴华等人。王海峰先后负责百度搜索、百度地图、百度翻译、百度智能云等业务。他同时是自然语言处理领域世界上最具影响力的国际学术组织ACL50多年历史上首位华人主席。

除了人才外,大模型训练也堪称“暴力美学”,需要有大算力、大数据和大模型,每一次训练任务都耗资巨大。

据《中国企业家》了解,文心一言大模型的训练数据包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。

此外,浙商证券的一份研报指出,支撑ChatGPT算力基础设施至少需要上万颗英伟达GPU A100,与之相对应,AlphaGO只需要8块GPU。

这只是最低门槛。大模型的爆发会导致训练的应用场景越来越多,对训练算力的需求会大幅增长,增长幅度能达到10倍甚至100倍。

02 大模型带来的产业变革

ChatGPT及相关的大模型应用,除了给个人带来工作是否会被取代的担忧外,也给产业带来很多变革。

在李彦宏看来,当人类进入人工智能时代,IT技术的技术栈发生了根本性变化。过去基本分为三层:芯片层、操作系统层和应用层。而现在可以分为四层:芯片层、框架层、模型层和应用层。百度目前是在这四层进行全栈布局的人工智能公司。

谈及全栈布局,百度智能云云计算产品解决方案和运营部总经理宋飞告诉《中国企业家》:“AI产品对于资源的要求越来越高,只有每一层都有自主可控的东西,才有可能纵深地做持续闭环的优化。”

宋飞举例,如果芯片不是自己的,你在优化到底下硬件的时候,就是个黑盒了,能发挥的空间绝对是有限的,你有什么需求它也不一定听你的。如果用自己的框架,有什么需求就很快可以调整。全栈的布局和专门的优化,是百度在基础架构的核心优势。

AI大模型的盛行,也在衍生众多的商业机会。

在李彦宏看来,对于大部分创业者和企业来说,真正的机会并不是从头开始做ChatGPT和文心一言这样的基础大模型,这很不现实,也不经济,重复造轮子是没有意义的。而是基于通用大语言模型,抢先开发重要的应用服务,“就像移动互联网时代,最成功的商业产品不见得是安卓和iOS,而是基于安卓和iOS开发的微信、淘宝、抖音等各种超级应用。”

阿里持相同的观点。

周靖人表示,阿里将开放通义千问的能力,帮助每家企业基于“通义千问”打造具备自己行业能力的专属大模型。未来每一个企业在阿里云上既可以调用通义千问的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型。比如,每个企业都可以有自己的智能客服、智能导购、智能语音助手、文案助手、AI设计师、自动驾驶模型等。

王海峰认为,大模型时代将产生三大产业机会:

第一类是新型云计算公司。大模型将根本性地改变云计算行业的游戏规则。之前企业选择云厂商更多看算力、存储等基础云服务。未来,更多会看框架好不好、模型好不好,以及模型、框架、芯片、应用这四层之间的协同。

第二类是进行行业模型精调的公司。这是通用大模型和企业之间的中间层,他们具有行业Know-how,调用通用大模型能力,为行业客户提供解决方案。

第三类是基于大模型底座进行应用开发的公司,即应用服务提供商。目前,基于文本生成、图像生成、音频生成、视频生成、数字人、3D等场景,已经涌现出很多明星创业公司。

03 反思、挑战和局限

略显遗憾的是,目前多数中国大公司在做的大模型和基于模型的应用,均是追随OpenAI的脚步,而且随着ChatGPT的惊人迭代速度,差距越拉越大。

李彦宏在接受36氪采访时表示,百度“文心一言”在研发阶段时,百度技术团队曾与ChatGPT进行对比测试,当时差距是40分的水平,一个月能追得上。可过了一个月,技术团队再次测试后,发现差距反而拉大了。

周靖人也坦诚承认,目前通义千问与ChatGPT仍有差距,“GPT还是属于各方面都领先的地位”。但他认为“你追我赶”是科技进步的必然阶段,“今天别人的技术比较领先,我们就需要取长补短。也许下一个阶段,通义千问也能贡献自己的一系列技术创新”。

在此前的采访中,周鸿祎也曾告诉《中国企业家》,其实国内也很早关注到GPT-1,然而当时的关注还是抱着一种实用主义的观点,认为应该找场景,要解决自己业务中遇到的问题。所以,中国的人工智能都用来解决人脸识别、图像滤镜做得更漂亮。

“如果一个人工智能技术和自己的业务不能结合,可能就会认为没太大意义,所以,没有人想到用GPT NLP的模型解决通用知识理解和推理的问题,更没有人想到大算力大数据做出一个大模型,能够产生一种连OpenAI自己都想不到的智能化的结果。”周鸿祎感慨道。

当然,中国更广阔的市场需要中国自己的大模型,中国厂商也有天然的本土优势。只是放到中西对比这一更大维度的竞争,国内大厂也有自己的局限。

周鸿祎认为,要把ChatGPT训练好,要用全人类的知识,一定要有开放的思路。全世界中文网页大概是其他语言网页的1/10,书籍的数目也不足。此外,国内移动互联网的迅猛发展,也在制造更多的数据孤岛。

“国外虽然APP也取代了Web,但国外很多APP基本保留了Web版,用浏览器还是能在网页之间跳来跳去,能够自由使用。国内信息都被APP私有化了,如果这些巨头互相把握着,谁的数据都不全,最后训练出来的大脑肯定能力上是比不上的。”周鸿祎表达了一定程度的悲观。

事实上,除了语料库之外,算力也是一个巨大的挑战。2022年8月底,美国政府宣布禁止美国公司向中国(包括中国香港地区)和俄罗斯出口高端GPU,设定的红线是:算力超过4800 TOPS,且带宽传输速率超过600 GB/秒,受限产品就包括英伟达A100和后续产品H100。

面向未来的AI大模型,中国互联网大厂还需更大的勇气和努力,去突破算力、语料、人才等各种限制。

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。