sd-凯发ag旗舰厅 二维码
发表时间:2023-09-23 10:42 请先通过前文 了解 sd-webui 网页应用提供的基本参数。 如何书写提示词这是一个通用的指南,内容是基本通用的,可能有例外情况,请读对应的章节了解不同应用的特性。 写什么?tip 提示词是提示而不是判定依据,比如你输入质量判定词汇的时候,其实是在限制数据的范围,而不是 “要求” ai 出一张很好的图片。 单词标签对于在标签单词上特化训练的模型,建议使用逗号隔开的单词作为提示词。 普通常见的单词,例如是可以在数据集来源站点找到的著名标签(比如 danbooru)。单词的风格要和图像的整体风格搭配,否则会出现混杂的风格或噪点。 避免出现拼写错误。nlp 模型可能将拼写错误的单词拆分为字母处理。 自然语言对于在自然语言上特化训练的模型,建议使用描述物体的句子作为提示词。 取决于训练时使用的数据集,可以使用英文,日文,特殊符号或一些中文。大多数情况下英文较为有效。 避免 避免使用重音符(如 é 和 è)和德语 umlauts(如 ä 和 ö),它们可能无法被映射到正确的语义中。 不建议随意套用现成模板,尤其是无法经过人类理解的模板。 emojiemoji (,,,,,,,,) 表情符号也是可以使用并且 非常准确 的。 emoji 因为只有一个字符,所以在语义准确度上表现良好。 emoji 在构图上有影响,比如 颜文字对于使用 danbooru 数据的模型来说,可以使用颜文字在一定程度上控制出图的表情。 例如:
仅支持西方颜文字,详细内容请见 或 空格逗号前后的少量空格并不影响实际效果。 开头和结尾的额外空格会被直接丢弃。词与词之间的额外空格也会被丢弃。 标点符号用逗号、句号、甚至是空字符( 对于部分模型,建议将下划线( 艺术风格词可以通过指定风格关键词来创作带有特效或指定画风的图片。 参考资料: 或通过使用 来创作图片。 运动和姿势如果没有很大要求的话,选择只与少数姿势相关的提示。 这里的姿势是指某一事物的物理配置:图像主体相对于摄像机的位置和旋转,人类/机器人关节的角度,果冻块被压缩的方式,等等。你试图指定的事物中的差异越小,模型就越容易学习。 因为运动就其定义而言涉及到主体姿势的巨大变化,与运动相关的提示经常导致身体的扭曲,如重复的四肢。另外,因为人类的四肢,特别是人类的手和脚有很多关节,他们可以采取许多不同的、复杂的姿势。这使得他们的可视化特别难学,对于人类和神经网络都是如此。 简而言之:人类站着/坐着的好形象很容易,人类跳着/跑着的好形象很难。 如何写?模板先想一下要画什么,例如 主题,外表,情绪,衣服,姿势,背景 一类,然后参考数据集标签表(如果有的话,比如 danbooru, pixiv 等)。 然后将想要的相似的提示词组合在一起,请使用英文半角 一种模板示例如下:
大小写clip 的标记器在标记之前将所有单词转为小写。其他模型,如 bert 和 t5,将大写的单词与非大写的单词区别对待。 但避免涉及特殊语法,以防被解释为其他语义,例如 词汇顺序似乎 vae 使用了一种称为贝叶斯定理的统计方法。在计算标记的去向时,前几个单词似乎锚定了其余单词标记在潜在空间中的分布。 早期的标记具有更一致的位置,因此神经网络更容易预测它们的相关性。在贝叶斯推理中,矩阵中的第一个标记或证据很重要,因为它设置了初始概率条件。但是后面的元素只是修改了概率条件。因此,至少在理论上,最后的令牌不应该比前面的令牌具有更大的影响。 但是解析器理解事物的方式是不透明的,因此没有办法确切地知道词法顺序是否具有“锚”效应。 可以 进行尝试。 提示词长度避免过长的提示词。 提示词放入的顺序就是优先级。由于提示词的权重值从前向后递减,放置在特别靠后的提示词已经对图片的实际生成影响甚微。 不堆叠提示词是一个好习惯,但是如果你确实有很多内容要写,可以适当提高生成步数,以便在生成过程中更好地利用提示词。 sd-webui 突破最多 75 个词组限制的方式是将每 20 55 个词分为一组。选项 除了 webui 对此情况进行了特殊处理外,由于 gpt-3 模型限制,提示词处理空间并不是无限的,大多在在 75-80 之间,75 字符后的内容会被截断。 特异性问题体现在语义偏移上。对于神经网络的训练来说,特征的质量很重要:输入和输出之间的联系越强,神经网络就越容易学习这种联系。 换句话说,如果一个关键词有非常具体的含义,那么学习它与图像之间的联系要比一个关键词有非常广泛的含义容易得多。 这样一来,即使是像 "zettai ryouiki" 这样很少使用的关键词也能产生非常好的结果,因为它只在非常具体的情况下使用。另一方面,"动漫" 即使是一个比较常见的词,也不会产生很好的结果,这可能是因为它被用于许多不同的情况,即使是没有字面意思的动漫。如果你想控制你的图片的内容,选择具体的关键词尤其重要。另外:你的措辞越不抽象越好。如果可能的话,避免留下解释空间的措辞,或需要 "理解" 不属于图像的东西。甚至像 "大" 或 "小" 这样的概念也是有问题的,因为它们与物体离相机近或远是无法区分的。理想情况下,使用有很大可能逐字出现在你想要的图像标题上的措辞。 语义失衡每一个提示词就像染料一样,它们的 “亲和性“ 不同,如果更常见的提示词,比如 比如,如果你想生成动漫图片,使用了 星空 许多词汇在基准上的权重就不一样,所以要根据效果进行合理调节。 否定提示词sd-webui 网页应用会在生成时 避免生成否定提示词提及的内容。 否定提示是一种使用 stable-diffusion 的方式,允许用户指定他不想看到的内容,而不对模型本身做额外的要求。 通过指定 python
比如使用以下提示词避免生成水印和文字内容 text
还如这个例子 text
更多资料详见 提示词语法以下内容主要适用于 sd-webui。novelai 用户可参照 。 权重系数权重系数可改变提示词特定部分的比重。 更多资料详见 对于 sd-webui,具体规则如下:
使用数字指定权重时,必须使用 info 权重增加通常会占一个提示词位,应当避免加特别多括号。
关于 novelai 因为 nai 使用的是 webui 2022 年 9 月 29 日之前的实现,所以权重增强语法是旧的 换算关系 nai 的 nai 的 nai 花括号权重为 1.05/个,webui 圆括号权重为 1.1/个。 how it works 每个单词都将被解析为 768 维度空间内的一个向量,该向量“指向”概念的方向。 如果你缩放这个向量,这个概念会变得更强或更弱。 详见 无论使用何种具体的脚本,重复某个关键词似乎都会增加其效果。 值得注意的是,你的提示中存在越多的提示词,任何单一提示词的影响就越小。你还会注意到,由于这个原因,在增加新的提示词时,风格会逐渐消失。强烈建议随着提示符长度的增加改变风格词的强度,以便保持一致的风格。 标签替换详见 允许您开始先使用一个提示词,但在生成过程中间切换到其他提示词。基本语法是:
其中 如果 替换标签可无限嵌套。 示例:对于
标签轮转详见 允许您在生成过程中每步轮换使用多个提示词。基本语法是:
生成的第一步将使用 多组提示词生成详见 warning
允许在生成时同时使用多组提示词,并将结果直接相加。基本语法是:
这将使用两组提示词 prompt matrix 参数矩阵使用
|