AIGC狂飙，谁领潮头？

智象出海·2023-03-08

关注

北京移动互联网

面向女生的新一代场景社交

最近融资：|2016-01-06

我要联系

1950年，计算机科学与人工智能之父图灵发表一篇名叫《计算机器和智能》的论文。这是人工智能的起点。

70多年后，2021 年，OpenAI 推出了 DALL-E并于一年后推出了升级版本 DALL-E-2，用户只需输入简短的描述性文字，DALL-E-2 即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。

但真正在大众层面引发广泛反响，还是在openAI推出ChatGPT 之后。这款由人工智能技术驱动的自然语言处理工具，也是自然语言处理发展中具有里程碑式意义的模型之一。

那么人工智能的未来会如何呢？在其中谁又将扮演举足轻重的角色呢？

70年的探索

回首人工智能的发展，并不是一蹴而就的，这中间经历了漫长的探索。早在上世纪60年代，就有科学家开发出来了一款可人机对话的机器人，主要通过关键字扫描和重组完成交互任务，不过后来由于高昂的系统成本无法带来商业变现，大家的热情渐渐消退。

转机发生在2014 年，一个叫Ian Goodfellow的年轻人发表了一篇名叫《Generative Adversarial Networks》的论文，第一次提出了生成式对抗网络的深度学习算法，在方法上实现了人工智能的突破。

所谓的生成式对抗网络，核心思想在于两个部分：一个伪造者网络和一个鉴定网络。二者互相对抗，共同演进，在此过程两者的水平都越来越高，伪造者网络生成的内容就足以达到以假乱真的水平。

具体来看，生成式对抗网络的基本原理就在于两个网络：G（Generator）和D（Discriminator），分别是生成器和判别器。在训练过程中，生成网络G的目标就是尽量生成真实的内容去欺骗判别网络D。而D的目标就是尽量把G生成的内容和真实的内容分别开来。这样，G和D构成了一个动态的“博弈过程”。在理想状态下，博弈的结果就是G可以生成足以以假乱真的内容，而此时的D难以判定生成的内容到底是真是假。

在此之后，生成式对抗网络方法下大量AIGC领域的应用不断涌现，包括微软、英伟达、谷歌等巨头都在这方面实现了突破。

2017 年，微软人工智能少女“小冰”推出了世界首部 100%由人工智能创作的诗集《阳光失了玻璃窗》。2018 年，英伟达发布的 StyleGAN 模型可以自动生成图片，目前已升级到第四代模型 StyleGAN-XL。2019 年，谷歌旗下的DeepMind 发布了 DVD-GAN 模型用以生成连续视频，在草地、广场等明确场景下表现突出。

它能够通过学习和理解人类的语言，进行对话、聊天互动。甚至能完成撰写邮件、视频脚本、文案、翻译、写代码、写论文等各种任务。上线短短5天，用户量突破百万，两个多月时间，月活跃用户数已达1亿。

AIGC强大的能力，可以在很多领域展现自己的魔法，比如在创意、表现力、迭代、传播、个性化等方面，充分发挥技术优势，打造新的数字内容生成与交互形态，AI绘画、AI写作等都属于AIGC的具体形式。

在内容生产上，AIGC变得高效容易，富有个性，它可以创建文本、音频、图像、视频、3D 模型。通过利用AI技术，AIGC能在大数据帮助下提升创作效率，突破创作内容和创作量上限。

其实所有应用背后都是一套机器深度学习算法模型，它经过大量训练完善模型，并最终模仿人类的思维方式来“生成”内容继而与人交互，它可以生成内容，包括文本、图像或语音，而ChatGPT 正是其中的文本对话模型。

模型的有效与否来源于数据处理的数量，比如Open AI 2019 年 2 月 14 日发布的大预言模型GPT-2，是一个主要用 800 万篇 Reddit 论坛帖子、总计 40GB 文本训练出来的语言模型，参数有 15 亿。到新一代GPT-3 发布时，参数已经达到1700亿，是上一代的100多倍。2022年11月OpenAI 从 GPT-3 拆出参数更少、聚焦特定任务的模型，这个模型被命名为GPT-3.5，也就是后来轰动一时的ChatGPT。

从这个角度也就可以理解，为什么现在说AIGC核心要素是算法、算力和数据。目前来看，包括生成式对抗网络在内的多种算法模型被证明是有效的，输出的内容足以以假乱真，而亚马逊云科技等云厂商所搭建的基础设施，算力性能也达到了极大的提升，另一方面，万维网已发明了几十年，在互联网上累计了海量的数据，足够可以用来帮助模型进行庞大数据的训练。

群雄逐鹿，谁领风骚

随着一些现象级应用的出现，AIGC 产业生态加速形成与发展，目前应用主要分为三大层，分别为基础层、中间层、应用层，第一层主要是由预训练模型的技术投入，主要代表为上游基础设施提供方如 Open AI、Stability AI 等；中间层是垂直化、场景化、个性化的模型和应用工具，比如ChatGPT；应用层即面向 C 端的用户的文字、图片、音视频等内容生成服务等。

这种产业生态的形成，从行业角度看，是有其客观规律的，从大语言模型再到应用，再到具体拥有商业价值的生成内容。

目前无论是Open AI、Stability AI都走向了模型即服务的道路，对外开源，努力要做行业的基础设施，Open AI大股东微软已经将ChatGPT 整合进Bing搜索引擎中，并且开放API接口，方便市场用户在此基础上开发使用。

以AI绘画走红全球的图片AI公司Stability早在去年就开源了自己训练的文字生成图片人工智能大模型 Stable Diffusion，借助这一模型，任何人只需要提供一段文字描述，就有机会创作出任意风格的绘画作品。据悉，Stability AI 计划通过为用户培训定制模型并充当通用基础设施来赚钱。

无论是Open AI、Stability AI目前已经都长成了独角兽，最新一轮融资Stability AI估值已经达到40亿美元，而Open AI估值更是达到了惊人的290亿美元。

ChatGPT在全世界的广泛成功，包括谷歌、百度在内的搜索引擎都感觉到了危机，如果未来要获取任何信息，只需要去问人工智能，就可以获得答案，何必还去谷歌和百度呢。

无论是新技术对传统巨头的冲击，还是追逐风口，外界也开始讨论中国什么时候开始出现本土的类ChatGPT应用。目前，无论腾讯还是百度，都在筹备推出自己的产品，腾讯针对类ChatGPT对话式产品已成立“混元助手(HunyuanAide)”项目组。百度表示，文心一言基于文心大模型技术推出的生成式对话产品文心一言将于3月面向公众开放。

AIGC已经证明了自身的价值，但必须指出的是，它的出色表现离不开预训练大模型的支持，大模型就意味着更高计算资源以及高效的平台进行训练和推理，据报道，Stability AI 拥有一个由4000 多个在 AWS 中运行的 Nvidia A100 GPU 组成的集群，用于训练 AI 系统，包括 Stable Diffusion。维护成本相当高— Business Insider报告称，Stability AI 的运营和云支出超过 5000 万美元。

鉴于此，AIGC大模型往往离不开强大的“AI软件工具和平台”的支持。这就涉及到亚马逊云在AIGC领域扮演的角色。作为全球最大的公有云供应商，亚马逊云科技于2017年就开始布局，在re:Invent 全球大会上推出了全球首个用于机器学习的集成开发环境（IDE）Amazon SageMaker。Amazon SageMaker是一项完全托管的机器学习服务，它使不论开发人员、数据科学家、还是商业分析师都能够快速、轻松地准备数据，并在规模上构建、训练和部署高质量的机器学习模型，然后直接将模型部署到生产就绪托管环境中，大大降低了机器学习的使用门槛。

可以说，亚马逊云很早就开始了在AIGC领域的布局，而且已经服务了包括Stability AI 在内的多家明星企业，是在AIGC领域布局非常前瞻的云平台。

为了让行业更深入了解和探索AIGC，揭秘AIGC的概念及火爆出圈背后的驱动力，了解AIGC的商业化落地机遇及关键趋势洞察，以及探索AIGC在游戏、广告、电商等领域的创新实践，亚马逊云将于2023年3月9号14:00-18: 00举办“ AIGC创新实践在线大会”。

除此之外，为了帮助广大AIGC算法与应用开发人员深入了解AI作画及基于大语言模型的AI对话服务背后的技术逻辑与实现方式，亚马逊云科技还将在全国12个城市陆续推出AIGC Day，邀请开发者携手亚马逊云科技专家一道，解密火爆出圈的AIGC领域的最新技术动态和行业实践，并在亚马逊云科技一站式全托管的机器学习平台Amazon SageMaker上快速搭建基于HuggingFace大规模语言模型的聊天机器人和Stable Diffusion的AI作画应用，全方位沉浸式体验和玩转AIGC。