字节推出最新偷懒大法,AI绘画连prompt都不用学了

2024-01-25
门槛被彻底踏平。

编者按:本文来自微信公众号 新硅NewGeek(ID:XinguiNewgeek),作者:刘白,编辑:张泽一,创业邦经授权转载。

我们都知道,哈利波特对着伏地魔挥舞魔杖的时候,嘴里念“阿瓦达啃大瓜”和“Lumos”显然会是两个完全不同的结果。

霍格沃兹的第一课,显然是教大家怎么念咒语。

如今咱们也有咒语,比如“中国风”“双马尾”“赛博朋克”“蓝发”“碧瞳”“海边”“坐姿”“年会”“职场”.......

指挥Chatgpt等等一切大模型帮你干活的关键,就是这些被称作提示词(prompt)的咒语。

然而这些咒语对于我们麻瓜来说还是太难了,尤其在用AI绘画的过程中。

绝大多数AI生图模型在训练的时候侧重的是文本和图形之间的关联,并不擅长语义分析和复杂元素处理。

所以有时候会出现一些它觉得合情合理,我们看起来十分离谱的场景。

比如之前热议的AI美少女无法用正确姿势吃面事件。

图片

这一是因为模型不知道吃拉面要用筷子这个常识,二是因为模型里没有足够的“手拿筷子吃拉面”样本图可以参考。

最关键的则是,咱们在要求模型生图的时候,没有详细描述“美少女用哪只手的哪几个手指怎么拿着筷子吃拉面”的场景。

为了实现完美生图,饱含智慧的前辈们总结出了一系列念咒大法,包括但不限于——

提示词分类(分别描述人物、服饰、场景等元素)、使用负面提示词(描述不希望图片中出现的内容)、垫图(给模型提供参考图链接)、加参数(规定生成图片的比例、随机种子、迭代次数…)等等。

图片

来源:眈眈探求

所以现在画张图,从原来的动手,变成了和大模型勾心斗角。

图片

来源:优设网

想要要把心中的二次元老婆变成电脑屏幕上的像素点,念给模型的咒语里要有她的:参考图、容貌描述、衣着描述、肢体动作、场景描述、艺术风格、镜头参数…

单是这几个类别的prompt叠加就能衍生出无限可能。

更别说生图模型一般一次不会只出一张图,而是会给出4-6张图片让你选。

图片

来源:眈眈探求

近乎无限的prompt组合尝试,加上乱花渐欲迷人眼的选图,很容易让人不小心拿出抽卡的劲头跟模型死磕到天明。

这种接近穷举法的方式搞创作也不是不行,但问题就是这不光浪费时间,甚至还浪费钱。

AI绘图届的天花板Midjourney采用订阅制付费,最便宜的10美元计划可用3.3小时快速生成时间,大约能生成200张图。

200张图不够用怎么办?接下来再用就是每小时4美元。

图片

Stable Diffusion(SD)则是可以在本地运行的AI绘图模型,投入只需要一张显卡,国外网友测试了各类显卡的生图效率。

可以看到官方定价1600美元的英伟达RTX 4090,在512分辨率下生图效率可达75张/分钟,虽然快但是贵且买不到。

价格亲民些的显卡平均生图大概在20张/分钟左右。

图片

假设抽卡生图200张,要么交10美元给Midjourney,要么先花2000多人民币买张显卡,然后再自己跟着网上的教程一步步部署SD,最后再花个10分钟去生图。

无论是付费订阅还是买显卡自己部署,想让沉没成本不沉没,咒语质量是关键。

咒语不到位不仅美少女会用手直接抓起滚烫的拉面往嘴里塞,还会出现这些人类驯服AI失败的名场面。

所以念咒教育产业应运而生,谁能念出高质量的咒语,就能驯服AI为自己所用。

用爱发电的教程就不说了,网上一搜一大把。

图片

来源:B站

直接上来卖prompt和收费开课的更是层出不穷。

图片

来源:淘宝

图片

来源:微博

AI绘图把传统画师的饭碗端起来送到了魔法师手里,然而这个饭碗在魔法师手里还没捂热,现在又有人要把它收走了。

字节跳动近期联合中山大学,推出了一个专门帮你写咒语和选绘画模型的AI绘图框架:DiffusionGPT。

简单来说,它就是想让一个不会念咒的人,随便说两个字就能得到最满意的结果。

有了这一框架,哈利波特对着伏地魔高喊一声“去死吧!”随即索命咒钻心咒夺魂咒就开始自动轮番伺候,不死不休。

图片

言归正传,先看看实际效果图,下面四宫格生图都使用了同一个prompt,上面两张是SD直接画的,下面两张是用DiffusionGPT生成的。

图片

prompt:创作一幅插画,描绘一对浪漫的情侣在星空下分享温柔时刻的场景

图片

prompt:如果我能跟动物交流,我会站在楼顶和鹰说说话

图片

prompt:来,让我们一起去一个白雪皑皑的童话世界,那里有孩子们堆雪人和打雪仗

SD还是颇有人工智障余风,只抓住了局部关键词,而DiffusionGPT无论是从立意、构图、风格选择上来说都完胜。

DiffusionGPT不依赖高质量咒语就能生出高质量图是怎么实现的?主要靠以下两点:

1. 用ChatGPT作为认知引擎,弥补了绘画模型没有脑子的短板,可以分析原始prompt并进行优化;

2. 连接各开源社区的绘画模型,自动根据prompt内容匹配符合其主题和风格的最佳模型。

再说直白点,它会根据你提供的提示词,自动脑补出咒语大师们会怎么写出更清晰的提示词。

接下来详细看看它是怎么用4步做到的。

图片

第一步,还是从用户给的prompt入手。

比如输入的prompt是:“生成一张正在笑的女人的照片,时尚杂志封面”。

DiffusionGPT会把这个prompt分到“指示”类别,然后提取出“带笑容的女人照片,杂志封面”几个关键短语。

接下来关键词会进入DiffusionGPT的模型思维树(Tree-of-thought of Models)中。

图片

模型思维树收录了开源社区(如:Hugging Face、Civi- tai)中大家贡献的定制化绘图模型,而且这个名录还可以根据社区新上架的模型自动更新。

虽然用风格关键词一定程度上也能控制生图的风格,但是如果模型训练时就没有相关的样本图,它也没办法无中生有。

开源社区中的定制化模型往往从样本图入手,针对某种画风、场景进行了特别的优化。

有网友用同一个描述艾莎女王的prompt在不同的模型上进行测试,发现这个画风差距还蛮大的,而差异就源自不同模型用了不同的样本图。

图片

来源:reddit

根据第一步得到的关键词“带笑容的女人照片,杂志封面”,DiffusionGPT的模型思维树会匹配到真实照片、电影级别大片这类模型标签,然后标签下搜索相关的模型。

然后找到像FilmVelvia2(用于生成胶片风格AI写真照片)、CineStyle5(用于生成带有故事性的电影图片)这类擅长真人写实风格的模型。

图片

图片

那事到如今到底选择哪个模型来生图呢?团队在这里引进了人类反馈机制。

图片

他们有一个记录了人类评分的prompt数据库,里面包含了10000条prompt、它们对应的生成图片以及人类对生成结果的打分。

当DiffusionGPT的模型思维树需要在搜索出来的相关模型中做出最后选择时,会把当前的关键词“带笑容的女人照片,杂志封面”跟数据中的prompt进行匹配。

把匹配到的几个高分图的模型名称找出来,然后根据这个列表选择最终这次生图要用的模型。

图片

模型选好了,但是还没结束,最后一步还有个prompt优化。

DiffusionGPT会结合关键词的上下文以及prompt示例,生成一个带有画面细节描述和提质专用词汇的新prompt。

于是关键词“带笑容的女人照片,杂志封面”最后就变成了:

“杂志封面上的女人笑得非常开心,眼睛里充满了喜悦。她穿着时髦的服装,凸显了她的曲线,头发也梳得恰到好处,衬托出她的容貌。”

论文里还提供了两个prompt优化的例子,看得出来优化后的prompt生成图片的效果确实好了不止一点点。

图片

原prompt:一个没有车的十字路口

优化prompt:城市的十字路口诡异地安静,到处都看不到车辆。交通的缺失营造出一种超现实的氛围,路灯的照明投下长长的阴影,照亮了空荡荡的街道。

图片

原prompt:老人和船

优化prompt:一位老船夫正悠然地荡着小船,碧波如镜的湖面在他的周围静静铺展。他戴着一顶破旧的草帽,身上披着风吹日晒的旧夹克,双手随意地放在船桨上。夕阳西沉,天边泛起一片暖橙色的霞光。虽然小船历经风霜,早已斑驳陈旧,却依旧稳健地承载着老船夫。他神情恬静,一脸岁月静好的安详。

DiffusionGPT是个特别适合被GPT5纳入官方技能包的功能,不知道Sam会不会翻到字节这篇论文。

集成到官方难度不大,而且还能在生图领域分一杯羹。

毕竟它的解析、推理、决策、优化prompt能力都是ChatGPT给的,剩下的只有联网(去开源社区搜索模型)和人类反馈(生图喜好评分标准)。

等于是用大语言模型给开源生图模型做了个搜索引擎+prompt优化,把生图的流程串联起来,提供了傻瓜式一条龙服务。

接下来就看是字节先产品化,还是GPTs里先有李鬼,还是官方直接来收编了。

不过参照网友总结的这张AI绘图选择树,DiffusionGPT面向的人群应该还是想尝鲜和懒得折腾的技术小白。

主打把一个简单的点子变成一张看起来还不错的图,提供了0学习成本低技术门槛的高效AI生图用户体验。

图片

来源:眈眈探求

然而对于吃美术、设计这碗饭的专业人士来说,这玩意生成的图只是所谓的人群审美“最大公约数”,并没有太多创意。

这就类似蜜雪冰城那个logo,人人都喜欢,可没几个甲方真敢用。

参考资料:

[1] 8000字干货!Midjourney 零基础必备的控图技巧!| 优设网

[2]「SD 零基础入门 04」文生图:不会念咒的炼丹师不是一个好画家 | 眈眈探求

[3] Stable Diffusion Benchmarks: 45 Nvidia, AMD, and Intel GPUs Compared | Tom's Hardware

[4] DiffusionGPT : LLM-Driven Text-to-Image Generation System

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。