在文本的理解及生成内容的连贯性上有所提升。
v5.2 已经是目前的默认版本了,可以与 -- style raw 模式合用。我们可以在提示词末尾加上参数 --v 5.2 -- style raw 调用,或者直接在 /setting 设置中进行切换。
我选了几组不同的提示词进行测试,对比 v5.1 与 v5.2 图像生成效果。先看 2 组写实摄影类:
对比组 ① :
young girl blowing a dandelion in a field of dandelions at sunset colors of orange, red and lavender fill the sky cinematic --ar 16:9 --seed 123589 --v 5
年轻的女孩于日落时分在长满蒲公英的田野上吹着蒲公英,橙色、红色和淡紫色的颜色充满了天空。
可以看出 v5.2 与 v5.1 一样,会赋予图像丰富的细节和强烈的氛围感,画面橙红色调非常浓烈,有点滤镜过厚的感觉;而配合 --style raw 使用后画面会更真实、透气。
对比组 ②:
a symmetrical dreamlike portrait of a beautiful white hair woman, in a lavender field, vibrant portraiture, lavender - core, 35mm lens f/ 1. 8 --seed 2698754
一个对称的梦幻般的肖像,一个美丽的白发女人,在薰衣草田里,充满活力的肖像
从这组人物肖像对比可以看出, v5.2 在物体轮廓线条的处理上更清晰明确,细节质感更强,相比之下 v5.1 的画面显得有些朦胧。
再看 2 组风格化图像的对比:
对比组 ③:
monet's self-portrait, 3d pixar style --seed 1256874
莫奈的自画像,3d 皮克斯风格 --seed 1256874
对比组 ④:
a man standing in the middle of a lush green forest, a 3d detailed accurate render, inspired by filip hodas, fantasy art, 3 d render of a sci-fi spaceport, plants inside cave, trending on unreal engine 5, underwater mushroom forest, bioluminescent --ar 4:5 --seed 2698754
一个人站在郁郁葱葱的森林中间,一个 3d 详细的精确渲染,灵感来自 filip hodas,幻想艺术,科幻太空港的 3d 渲染,洞穴内的植物,虚幻引擎 5 的趋势,水下的蘑菇森林,生物发光 --ar 4:5 --seed 2698754
从这两组对比可以看出,v5.2 在文本理解及画面清晰度上要比 v5.1 更优秀。莫奈自画像中,莫奈的形象、背景带有的湖泊花卉都比 v5.1 更贴近莫奈作品的风格。而在对比组 ④ 中,v5.2的图像比 v5.1更具有科幻意味,画面质感更逼真,森林、太空港、植物、蘑菇等元素的细节层次更丰富。
此次更新最令人兴奋自然是新增的 zoom out 图像外绘功能,前段时间 photoshop 的 generative fill 功能引起了人们对图像外绘的关注和热情,midjourney 推出 zoom out 也算是及时跟上了热点,满足了用户的对这个新功能的需求。
zoom out 的启用的方式非常简单,生成一张四宫格后,点击其中一张进行 upsacle 放大操作,完成后下方就会有一些可选的调节参数。其中 zoom out 2x 和 zoom out 1.5x 表示在原图的基础上按比例拓展绘制 2 及 1.5 倍;还有一个「make square」选项,可以将非正方形图像拓展绘制为正方形。
custom zoom 可以让我们自定义扩展绘制比例,具体操作方式为点击「custom zoom」按钮,在弹出的文本末尾输入你需要的长宽比,再加上你需要拓展绘制的比例,比如 --ar 16:9 --zoom 1,或者 --ar 2:3,--zoom 1.2。--zoom 的数值范围为 1.0 - 2.0,接受小数点。
图像外绘后的质量依旧很高,衔接也很自然。推特上还有不少网友把拓展后的图像再次进行拓展绘制,无限套娃,最后在放进 ae 中制作成镜头无限推进/拉开的动态视频,效果很惊艳。
视频来源 :twitter@ ciguleva
在 v 5.1 中我们使用 v 按钮生成变体时,会在原图的基础上生成 4 张略有不同的图像,而 v5.2 推出的 high variation mode 则是会让图像变化程度大大提升。high variation mode 已经是目前默认的模式,如果不想生成的变体变化程度这么高,可以在 /setting 将模式切换为 low variation mode 模式,再点击 v 按钮生成变体。
下图是同一张图像在高低两种不同模式下产生变体的效果,low variation mode 下 4 张变体图像整体构图变化很小,只在局部细节上有不同;而 high variation model 下,4 张图像的顶部发光体、环境样式都有非常明显的差异。
--stylize (简写为 --s )可以生成更具艺术色彩、构图和形式的图像,参数范围 0-1000,默认值 --s 100,v5.2 中 --stylize 带来的风格化程度会比 5.1 更加明显。
下面是同一组提示词、固定种子值,在不同 --stylize 数值下的图像结果。--s 0 的效果很差就不展示了,总体来说效果在--s 在 250-500 之间时,图像的风格化效果就很不错了,风格化程度越高,图像的细节越丰富、质感越逼真,实际效果大家可以在生成图像时多种尝试。
/shorten 命令可以帮我们 "分析 "一段提示,显示哪些词语是没有作用可以去除的,哪些是关键词语,并给出 4 条精简后的参考提示,从而提升用户的图像生成质量。使用方式是在输入框内输入 /shorten,复制文本提示词发送出去。
我测试了 2 组提示词,下面是 /shorten 前后的结果对比。
首先是 /shorten 会去除大部分的介词短语,将原本的长句化为单词或者短语,比如“, inspired by filip hodas”直接简化为“ filip hodas”;“sunset colors of orange, red and lavender fill the sky”,简化为“sunset,lavender”。
从图像生成效果来看,如果原本的提示词不是很复杂,那么对画面的影响不会很大,图像生成效果都不错(第 1 组对比)。如果是提示词本身就包含很多的元素,精简后画面的关键元素会更加明显清晰。比如在第 2 组对比中,精简后的图像中环境植物、蘑菇森林、生物光等物体的体现都比原图要好,图像在细节丰富度和美感上也比精简提示前更强。