字节推出最新偷懒大法，AI绘画连prompt都不用学了

远川研究所·2024-01-25

门槛被彻底踏平。

编者按：本文来自微信公众号新硅NewGeek（ID：XinguiNewgeek），作者：刘白，编辑：张泽一，创业邦经授权转载。

我们都知道，哈利波特对着伏地魔挥舞魔杖的时候，嘴里念“阿瓦达啃大瓜”和“Lumos”显然会是两个完全不同的结果。

霍格沃兹的第一课，显然是教大家怎么念咒语。

如今咱们也有咒语，比如“中国风”“双马尾”“赛博朋克”“蓝发”“碧瞳”“海边”“坐姿”“年会”“职场”.......

指挥Chatgpt等等一切大模型帮你干活的关键，就是这些被称作提示词(prompt)的咒语。

然而这些咒语对于我们麻瓜来说还是太难了，尤其在用AI绘画的过程中。

绝大多数AI生图模型在训练的时候侧重的是文本和图形之间的关联，并不擅长语义分析和复杂元素处理。

所以有时候会出现一些它觉得合情合理，我们看起来十分离谱的场景。

比如之前热议的AI美少女无法用正确姿势吃面事件。

这一是因为模型不知道吃拉面要用筷子这个常识，二是因为模型里没有足够的“手拿筷子吃拉面”样本图可以参考。

最关键的则是，咱们在要求模型生图的时候，没有详细描述“美少女用哪只手的哪几个手指怎么拿着筷子吃拉面”的场景。

为了实现完美生图，饱含智慧的前辈们总结出了一系列念咒大法，包括但不限于——

提示词分类（分别描述人物、服饰、场景等元素）、使用负面提示词（描述不希望图片中出现的内容）、垫图（给模型提供参考图链接）、加参数（规定生成图片的比例、随机种子、迭代次数…）等等。

来源：眈眈探求

所以现在画张图，从原来的动手，变成了和大模型勾心斗角。

来源：优设网

想要要把心中的二次元老婆变成电脑屏幕上的像素点，念给模型的咒语里要有她的：参考图、容貌描述、衣着描述、肢体动作、场景描述、艺术风格、镜头参数…

单是这几个类别的prompt叠加就能衍生出无限可能。

更别说生图模型一般一次不会只出一张图，而是会给出4-6张图片让你选。

来源：眈眈探求

近乎无限的prompt组合尝试，加上乱花渐欲迷人眼的选图，很容易让人不小心拿出抽卡的劲头跟模型死磕到天明。

这种接近穷举法的方式搞创作也不是不行，但问题就是这不光浪费时间，甚至还浪费钱。

AI绘图届的天花板Midjourney采用订阅制付费，最便宜的10美元计划可用3.3小时快速生成时间，大约能生成200张图。

200张图不够用怎么办？接下来再用就是每小时4美元。

Stable Diffusion（SD）则是可以在本地运行的AI绘图模型，投入只需要一张显卡，国外网友测试了各类显卡的生图效率。

可以看到官方定价1600美元的英伟达RTX 4090，在512分辨率下生图效率可达75张/分钟，虽然快但是贵且买不到。

价格亲民些的显卡平均生图大概在20张/分钟左右。

假设抽卡生图200张，要么交10美元给Midjourney，要么先花2000多人民币买张显卡，然后再自己跟着网上的教程一步步部署SD，最后再花个10分钟去生图。

无论是付费订阅还是买显卡自己部署，想让沉没成本不沉没，咒语质量是关键。

咒语不到位不仅美少女会用手直接抓起滚烫的拉面往嘴里塞，还会出现这些人类驯服AI失败的名场面。

所以念咒教育产业应运而生，谁能念出高质量的咒语，就能驯服AI为自己所用。

用爱发电的教程就不说了，网上一搜一大把。

来源：B站

直接上来卖prompt和收费开课的更是层出不穷。

来源：淘宝

来源：微博

AI绘图把传统画师的饭碗端起来送到了魔法师手里，然而这个饭碗在魔法师手里还没捂热，现在又有人要把它收走了。

字节跳动近期联合中山大学，推出了一个专门帮你写咒语和选绘画模型的AI绘图框架：DiffusionGPT。

简单来说，它就是想让一个不会念咒的人，随便说两个字就能得到最满意的结果。

有了这一框架，哈利波特对着伏地魔高喊一声“去死吧！”随即索命咒钻心咒夺魂咒就开始自动轮番伺候，不死不休。

言归正传，先看看实际效果图，下面四宫格生图都使用了同一个prompt，上面两张是SD直接画的，下面两张是用DiffusionGPT生成的。

prompt：创作一幅插画，描绘一对浪漫的情侣在星空下分享温柔时刻的场景

prompt：如果我能跟动物交流，我会站在楼顶和鹰说说话

prompt：来，让我们一起去一个白雪皑皑的童话世界，那里有孩子们堆雪人和打雪仗

SD还是颇有人工智障余风，只抓住了局部关键词，而DiffusionGPT无论是从立意、构图、风格选择上来说都完胜。

DiffusionGPT不依赖高质量咒语就能生出高质量图是怎么实现的？主要靠以下两点：

1. 用ChatGPT作为认知引擎，弥补了绘画模型没有脑子的短板，可以分析原始prompt并进行优化；

2. 连接各开源社区的绘画模型，自动根据prompt内容匹配符合其主题和风格的最佳模型。

再说直白点，它会根据你提供的提示词，自动脑补出咒语大师们会怎么写出更清晰的提示词。

接下来详细看看它是怎么用4步做到的。

第一步，还是从用户给的prompt入手。

比如输入的prompt是：“生成一张正在笑的女人的照片，时尚杂志封面”。

DiffusionGPT会把这个prompt分到“指示”类别，然后提取出“带笑容的女人照片，杂志封面”几个关键短语。

接下来关键词会进入DiffusionGPT的模型思维树（Tree-of-thought of Models）中。

模型思维树收录了开源社区（如：Hugging Face、Civi- tai）中大家贡献的定制化绘图模型，而且这个名录还可以根据社区新上架的模型自动更新。

虽然用风格关键词一定程度上也能控制生图的风格，但是如果模型训练时就没有相关的样本图，它也没办法无中生有。

开源社区中的定制化模型往往从样本图入手，针对某种画风、场景进行了特别的优化。

有网友用同一个描述艾莎女王的prompt在不同的模型上进行测试，发现这个画风差距还蛮大的，而差异就源自不同模型用了不同的样本图。

来源：reddit

根据第一步得到的关键词“带笑容的女人照片，杂志封面”，DiffusionGPT的模型思维树会匹配到真实照片、电影级别大片这类模型标签，然后标签下搜索相关的模型。

然后找到像FilmVelvia2（用于生成胶片风格AI写真照片）、CineStyle5（用于生成带有故事性的电影图片）这类擅长真人写实风格的模型。

那事到如今到底选择哪个模型来生图呢？团队在这里引进了人类反馈机制。

他们有一个记录了人类评分的prompt数据库，里面包含了10000条prompt、它们对应的生成图片以及人类对生成结果的打分。

当DiffusionGPT的模型思维树需要在搜索出来的相关模型中做出最后选择时，会把当前的关键词“带笑容的女人照片，杂志封面”跟数据中的prompt进行匹配。

把匹配到的几个高分图的模型名称找出来，然后根据这个列表选择最终这次生图要用的模型。

模型选好了，但是还没结束，最后一步还有个prompt优化。

DiffusionGPT会结合关键词的上下文以及prompt示例，生成一个带有画面细节描述和提质专用词汇的新prompt。

于是关键词“带笑容的女人照片，杂志封面”最后就变成了：

“杂志封面上的女人笑得非常开心，眼睛里充满了喜悦。她穿着时髦的服装，凸显了她的曲线，头发也梳得恰到好处，衬托出她的容貌。”

论文里还提供了两个prompt优化的例子，看得出来优化后的prompt生成图片的效果确实好了不止一点点。

原prompt：一个没有车的十字路口

优化prompt：城市的十字路口诡异地安静，到处都看不到车辆。交通的缺失营造出一种超现实的氛围，路灯的照明投下长长的阴影，照亮了空荡荡的街道。

原prompt：老人和船

优化prompt：一位老船夫正悠然地荡着小船，碧波如镜的湖面在他的周围静静铺展。他戴着一顶破旧的草帽，身上披着风吹日晒的旧夹克，双手随意地放在船桨上。夕阳西沉，天边泛起一片暖橙色的霞光。虽然小船历经风霜，早已斑驳陈旧，却依旧稳健地承载着老船夫。他神情恬静，一脸岁月静好的安详。

DiffusionGPT是个特别适合被GPT5纳入官方技能包的功能，不知道Sam会不会翻到字节这篇论文。

集成到官方难度不大，而且还能在生图领域分一杯羹。

毕竟它的解析、推理、决策、优化prompt能力都是ChatGPT给的，剩下的只有联网（去开源社区搜索模型）和人类反馈（生图喜好评分标准）。

等于是用大语言模型给开源生图模型做了个搜索引擎+prompt优化，把生图的流程串联起来，提供了傻瓜式一条龙服务。

接下来就看是字节先产品化，还是GPTs里先有李鬼，还是官方直接来收编了。

不过参照网友总结的这张AI绘图选择树，DiffusionGPT面向的人群应该还是想尝鲜和懒得折腾的技术小白。

主打把一个简单的点子变成一张看起来还不错的图，提供了0学习成本低技术门槛的高效AI生图用户体验。

来源：眈眈探求

然而对于吃美术、设计这碗饭的专业人士来说，这玩意生成的图只是所谓的人群审美“最大公约数”，并没有太多创意。

这就类似蜜雪冰城那个logo，人人都喜欢，可没几个甲方真敢用。

参考资料：

[1] 8000字干货！Midjourney 零基础必备的控图技巧！｜优设网

[2]「SD 零基础入门 04」文生图：不会念咒的炼丹师不是一个好画家 | 眈眈探求

[3] Stable Diffusion Benchmarks: 45 Nvidia, AMD, and Intel GPUs Compared | Tom's Hardware

[4] DiffusionGPT : LLM-Driven Text-to-Image Generation System

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

远川研究所

0

关于我们

订阅服务

特别推荐

法律相关

Copyright 2007-2023 cyzone.cn All rights reserved 京ICP证070362号京ICP备08103950-1号京ICP备08103950-9号京ICP备08103950-10号新出发京零字第朝140005号

爱奇清科（北京）信息科技有限公司地址：北京市朝阳区丽泽西街东湖国际中心A座7层 | 网络文化经营许可证（京网文[2018]2153-213号）

违法和不良信息举报电话：010-53391121 举报邮箱：db@cyzone.cn

京公网安备 11010502035114号

营业执照出版物经营许可证

反馈

联系我们

推荐订阅