webui基础
1. SD本地电脑配置推荐
专业配置要求:显卡内存最低12G,其他硬件围绕显卡配置,建议固态1-2T,内存32G/64G,CPU-I5以上
性价比推荐:英伟达显卡N卡
2080魔改版22G内存 —— 2700左右
3060 12G内存 —— 1700左右
3090 24G内存 —— 6500左右
4060 16G内存 —— 4000左右
4070TISUPER 16G —— 7000左右
4090 24G —— 18000左右
5090 32G —— 30000左右
2. Windows部署前准备工具
Edge浏览器
chrome浏览器
火狐浏览器
百度翻译
科学上网梯子软件 clash
梯子软件魔戒:
https://mojie.app/login
大哥云机场:
https://aff02.dgy01.com/#/register
远程软件Todesk个人版:
https://www.todesk.com/download.html
设置-代理设置-全部打开
代理地址:
例如:http://127.0.0.1:7897
端口7897和电脑VPN端口要相同
3. 云端部署
lightCC
地址:https://lightcc.cloud
4. checkpoint大模型
SD15(1代)
分辨率推荐0.5K
优势:生态最完善,对计算机显卡要求低
劣势:对自然语言理解很差,出图分辨率低
SDXL(2代)
分辨率推荐1K
较前一代优势:
画质更好,出图分辨率高4倍
对自然语言的理解更好
FLUX(3代)
分辨率0.5K-2K 全分辨率,分辨率推荐是64的倍数
较前一代优势:
图片可以写字(英文)
较好的手
画质更好,出图分辨率高2-4倍
其他模型
kolors(2代)
较SDXL优势:
中文提示词输入
图片可以写中文
画质更好,出图分辨率高2-4倍
SD3(3代)SD3.5(3代)
生态不完善,效果和生态没FLUX好
模型下载网站
https://www.liblib.art
5. 模型分类和介绍
1️⃣ checkpoint大模型:
Clip文本编码器(把文本翻译成大模型可以理解的语言)
Unet生成模型(添加噪声和去除噪声)
Vae图像编解码模型(数据压缩和解压)
2️⃣ lora模型微调器(通过较小的微调模型作用在大模型上达到自己想要的效果,比如图案形状,色彩风格,材质,角色形象,构图等)
3️⃣ Controlnet控制网模型(想象ControlNet是一个自动驾驶汽车的导航系统,它接收目的地(输入数据)和实时路况(环境信息))
4️⃣ Ipadapter风格迁移人像迁移器(在图像生成中,IPA可以用于实现图像的后处理,入风格迁移,人像面部迁移)
5️⃣ others
6. SD大模型简介
checkpoint大模型:它是stable diffusion绘图的主模型,包含了大量的场景素材,所以它的体积很大,其他模型都是在它的基础上做一些细节的定制(大模型,底模型,主模型,base model)
模型后缀:.ckpt .safetensors
模型大小:文件大小在(2-7G左右),通常以G为单位
模型放置路径:sd-webui-aki-v4.4\models\Stable-diffusion
应用范围:单独使用,结合lora,结合Hypernetwork
模型显示位置:Webui左上方\Webui中间(模型)
获取方式:Civitai \ Liblib
7. Lora模型简介
Lora模型:它是一个微调模型,主要是用于满足对应特定的风格。在数据相似度非常高的情况下,lora模型更加轻巧,训练效率也更高,可以节省大量的训练时间和训练资源
模型后缀:safetensors
模型大小:文件大小在(1G以下),通常以Mb为单位
模型放置路径:sd-webui-aki-v4.4\models\Lora
应用范围:不能单独使用,结合大模型使用
模型显示位置:Webui中间(Lora)
获取方式:Civitai \ LibLib
8. SD1.5大模型推荐
写实模型:
realistVisionV60B1_v60B1VAE
能够实现极具真实感的人物和环境塑造,还原真实世界风格
majicmixRealistic_v7
亚洲人脸模型,兼具多种人造型及场景风格
动漫模型:
ReVAnimated_v122
适用于动漫人物或场景的2.5D或3D绘制模型
3动漫模型:
万象熔炉|Anything
出场即王炸,大名鼎鼎的老牌二次元模型,使用简单提示词轻松打造动漫,插画,角色等
注意事项:好的大模型有很多中风格,大家可以去看模型说明和不断去尝试
9. SDXL大模型推荐
JuggemautXL:通用图像生成模型
JuggemautXL是一个已经训练了60万步的SDXL模型,以其在图像生成中的高质量和细节丰富而闻名。这个模型能够处理各种风格的图像生成任务,包括人物,物体和场景,提供高分辨率和逼真的细节
LEOSAM HelloWorld:真人写实模型
LEOSAM HelloWorld是一个真人写实模型,以其在写实风格图像生成中的表现而受到欢迎。该模型能够生成高度逼真的人物图像,包括细节丰富的面部特征和光影效果,适用于生成各种人物形象
10. 参数 - 提示词
1️⃣ 提示词语言:国外AI大模型提示词语言不支持中文,只支持英文
2️⃣ 正向提示词:我们希望画面出现的内容
3️⃣ 反向提示词:我们不希望画面出现的内容
4️⃣ 提示词语法:自然语言写法和标签语言写法
自然语言写法 举例:
A gril in a blue dress is playing on the grass
译文:一个穿蓝色衣服的女孩正在草地上玩
标签语言写法 举例:
1girl,blue dress,grass,playing
译文:1女孩,蓝色的裙子,草,玩
提问:
写提示词的时候应该用自然语言还是标签语言呢?
答:两种都可以,哪种方式更能画出你想要的图片就选哪种方式
提问:
如何避免在工作中出现黄图?
答:在负向提示词中国输入 “nsfw,nude,naked” ,不过这种方法不会完全灵验
5️⃣ 提示词权重:
格式:(提示词:权重)
权重用数字表示:1.1表示原提示词的1.1倍,2表示2倍,0.9表示原提示词的0.9倍,0.5表示原提示词的一半(小于1即使削弱,大于1就是加强)
6️⃣ 提示词先后顺序权重影响:
提示词越靠前,权重值越高,提示词越靠后,权重值越低
SD默认每组提示词只支持75个token,超出部分很难生效,提示词要尽可能的精简准确,只描述画面需要的词语
11. 采样器
1.老派采样器-最早(推荐):
Euler
Euler a ★
2.DPM采样器-2022年发布(推荐):
DPM++2M Karras ★
DPM++SDE Karras ★
DPM++2M SDE Karras
DPM++2M SDE Exponential
DPM++3M SDE Karras
DPM++3M SDE Exponential
3.新派采样器-2023年发布(推荐):
Unipc
Restart
12. 参数-ADetailer修复插件
Adetailer的工作原理:自动检测图片中的人脸,然后进行修复或者是替换,主要是速度快,而且效果非常自然
Adetialer模型放置位置:models\adetailer
提示词:修复脸可增加描述脸的词语,如:精致的面孔,写实等。修复手则增加描述手部细节词汇,如:写实,手部纹理等。若不填写提示词,会默认使用上方提示词
face_yolov8n.pt 修复人脸
face_yolov8s.pt 修复人脸
face_yolov8m.pt 修复人脸
face_yolov8n_v2.pt 修复人脸(写实,二次元人脸)
hand_yolov8n.pt 修复手部
hand_yolov8s.pt 修复手部
person_ylolv8n-seg.pt 增加人物整理细节
person_ylolv8s-seg.pt 增加人物整理细节
person_ylolv8m-seg.pt 增加人物整理细节
mediapipe_face_full 修复人脸(写实人脸)
mediapipe_face_short 修复人脸(写实人脸)
mediapipe_face_mesh 修复人脸(写实人脸)
mediapipe_face_mesh_eyes_only 修复人脸(写实人眼)
yolov8x-worldv2.pt
deepfashion2_yolov8s-seg.pt
13. ControlNet
1.ControlNet简介
ControlNet: SD是一种潜在扩散模型,ControlNet是控制扩散模型的插件,将画面的输出控制在范围内
在Stable Diffusion的基础上使用ControlNet就相当于给Stable Diffusion加了一个插件用于引导AI模型按照输入的条件来生成图,从而实现更精细的生成控制
注意:
ControlNet模型用来控制画面构图
大模型和Lora模型来控制画面的风格
其他参数来控制画面生成的精细程度
2.ControlNet安装
ControlNet插件安装:启动器”版本管理”中”安装新扩展”来安装controlnet插件
ControlNet预处理器:自带预处理器(有新的ControlNet预处理器,只需要更新该插件版本即可)
ControlNet预处理器模型:科学上网,在点击”预处理”后,会直接在启动器控制台自动下载,放置路径:\extensions\sd-webui-controlnet\annotator\downloads
ControlNet模型:放置路径:\extensions\sd-webui-controlnet\models
注意:
1.模型兼容性:如果使用的是SDXL1.0版本的大模型,那么Lora和ControlNet也必须是SDXL版本
2.显存管理:ControlNet会增加显存的负担。如果出现显存不足的提示,可以尝试启用”低显存模式”以降低爆显存的概率,但这可能会降低处理速度
3.VAE半经度优化:使用SDXL系列大模型时,需要使用 —no-half-vae 模式,即在启动器中关闭”VAE模型半经度优化”选项
3.ControlNet权重
ControlNet权重:权重的数值相当于对结构控制的强度,数值越大,控制强度越大,通常(0.8-0.9)
14. ControlNet预处理器
1. CN线稿控图
Canny(硬边缘):对原始图片进行边缘检测,识别图像内对象的边缘轮廓,生成原始图片对应的线稿图。分辨率:数值也高越精细,也越吃显存。但如果数值太低生成的线条也会很粗糙。默认512
Lineart(线稿):用于识别输入图像的线稿信息,各种写实物体的线稿/素描;
阈值:长和宽的阈值越高,线条越简单,越低线条越复杂
lineart_standard:用于提取标准线稿,特点是白底黑线,并且进行反色处理,使线稿更加突出,易于识别和使用
invert:对白色背景上的黑色线条图像进行反向处理,即将和白颜色互换
lineart_realistic:专注于提取写实风格的线稿,适用于需要真实感或细节丰富的图像线稿提取
lineart_coarse:用于提取粗略的线稿,可能在细节上不如其他预处理丰富,单可以快速得到图像的基本轮廓
lineart_anime_denoise:专门用于动漫风格的线稿提取,并且具有去噪功能,可以清楚图像中的不必要细节
MLSD(直线):线稿里面的特殊类,是直线检测,检测不出曲线,相对适合建筑设计,室内设计
Scribble(涂鸦):用于识别输入图像的线稿信息,各种写实物体的线稿/素描
阈值:长和宽的阈值越高,线条越简单,越低线条越复杂
scribble_pidinet:通过像素差分技术,将图像转换为涂鸦风格。优点是快速将复杂图像简化,但在细节不如其他
invert:对白色背景上的黑色线条图像进行反相处理,即将黑白颜色互换
scribble_xdog:强化图像边缘,使涂鸦风格更加明显。优点是能够突出图像主要轮廓,缺点是可能导致细节失真
scribble_hed:通过整体嵌套的方式,将图像转换为涂鸦风格。优点是可以保持图像的整体结构,缺点是在处理复杂图像时,可能会丢失一些细节。
SoftEdge(软边缘):相当于HED边缘检测的升级版。相比canny,它可以提取图像中的边缘轮廓和细节
SoftEdge_PiDiNet:用PiDiNet算法进行检测。优点是能提供较为准确的边缘检测,缺点是处理速度可能较慢
softedge_teed:高效的软边缘检测方法。优点是处理速度快,缺点是准确性上不如一些更复杂的算法
SoftEdge_PiDiNetSafe:保守的PiDiNet算法进行软边缘检测。优点是边缘检测准确,缺点泛化性不够
SoftEdge_HEDSafe:保守的HED算法进行软边缘检测。优点是提供平衡的边缘检测,缺点是边缘检测不全面
Softedge_hed:用HED算法进行软边缘检测。优点是HED算法在多尺度下都能提供较好的边缘检测效果
Softedge_anyline:允许更广泛的边缘检测,不局限于特定算法。优点是适应多种边缘检测需求。缺点可能是缺乏特定算法的优化,性能可能不如专门算法
2. CN结构控图
Depth(涂鸦深度):提取原始图片中的深度信息,生成具有原图同样深度结构的深度图,越白的越前,越黑的越靠后,提现一定的景深和空间前后关系
depth_midas:midas深度图估算模型,生成图像的深度图。该模型以其准确性和速度而受到好评
depth_zoe: zoe深度图估算模型,它不需要特定的训练数据集,可以对任意图像进行深度估计
depth_leres++ :leres深度图估算模型,++表示这是一个改进版本,提供了更准确的深度信息
depth_leres: leres模型的基础版本,用于从单张图像中估计深度信息
depth_hand_refiner:专注于手部区域的深度细化,可以提高手部细节的深度估计精度
depth_anything_v2 : 通用深度估算模型,适用于多种场景和对象,V2是更新版本,在性能或准确性上有所提升
depth_anything: 早起版本,同样用于通用深度估计,接近淘汰
NormalMap(法线贴图):能根据原始素材生成一张记录凹凸信息的法线贴图,便于AI给图片内容进行更好的光影处理。法线忒图在游戏制作领域用的较多,常用于贴在低模上模拟高模的复杂光影效果
normal_bae: 以其在细节渲染上的优势而受到推崇,尤其在处理图像背景和前景时表现出色,有助于完善法线贴图中的细节内容。其法线贴图可能在精致程度上不及某些其他预处理器
normal_midas: 法线贴图具有独特性,但出图效果存在不稳定性
normal_dsine: 虽然法线贴图看起来精致,但其出图效果几乎呈现卡通形象,这在需要特定艺术风格时可能是一个优点,但在追求真实感的场景中可能不太实用;接近淘汰
Segmentation(语义分割):识别图像中物体,并用不同颜色进行标记(不通过颜色代表不同种类的指定物体)
seg_ofade20k: 适用于需要对图像中的不同对象和场景进行详细分割的人物
seg_ufade20k: UniFormer是用于图像分割的深度学习模型,它在处理速度或准确性方面与OneFormer有所不同
seg_ofcoco: 一个包含日常物体的数据集,这个预处理器适用于需要对日常场景中的物体进行分割的人物
seg_anime_face: 专门用于动漫风格的面部语义分割。它能够识别并分割动漫图像中的面部特征,适用于动漫角色设计和面部特征分析
mobile_sam: 在移动设备上使用的SAM语义分割模型。它易在为移动平台提供高效的语义分割能力
3. CN其他控件
inpaint_only(局部重绘-只蒙版):只会对蒙版区域内的内容进行更改,不会涉及蒙版以外区域,相对于WebUI局部重绘使用更加简单,效果更好
inpaint_only+lama(局部重绘-lama模型预处理器)inpaint_only的改良,图片在未交由inpaint_only处理之前会使用lama模型来对图片进行处理,使其更加容易融入背景。适用于抹除内容的场景。
inpaint_global_harmonious(局部重绘-全局融合):更加侧重蒙版区域的融合,为了融合蒙版区域,会尝试使用更改蒙版以外区域手段来实现原图与蒙版的融合,如果你对于图片要求很高,不建议使用
InstructP2Pn(语义分割):根据指令(提示词)对图像进行修改,如改变背景分为,换脸等
仅需几秒就能快速出图
使用时无需选择处理器
换脸时如果配合lora会产生冲突,生成坏图
对于一些复杂或细节丰富的图像,无法达到理想效果
Openpose(姿态):是一种用于检测任务骨骼肢体动作的技术,可以检测出人体关键点,比如头部,肩膀,手的位置等。
openpose_full:提供全面OpenPose姿态,包括身体,手部和脸部的关键点检测,使用于详细姿态信息的场合
openpose_hand:专注于手部和身体姿态的关键点检测,适用于需要精确手部动作捕捉的场景
openpose_faceonly:仅检测脸部的关键点,适用于专注于面部表情和特征分析的应用
openpose_face:提供身体姿态和脸部关键点的检测,适用于需要同时考虑身体和面部表情的场景
openpose:基础的OpenPose姿态估计,专注于身体姿态的关键点检测
dw_openlpose_full:这是一个增强版的OpenPose,通过二阶蒸馏技术提供更准确的全身姿态估计
densepose_parula:使用DensePose技术,背景为黑市,躯干为蓝色,适用更详细人体表面对应信息的场景
densepose:与densepose_parula类似,但背景和躯干颜色为紫色,同样用于人体表面细节的捕捉
animal_openpose:专为动物设计的姿态估计预处理器,适用于分析动物的肢体语言和姿态
Recolor(重上色):翻译过来的含义就是重上色。该模型可以保持原图片的构图,它只负责上色,图片不会发生任何变换
recolor_luminance调节“图像强度”以去色,提取图像特征信息时注重颜色亮度,目前大部分情况下这个效果更好
recolor_intensity调节“图像强度”以去色,提取图像特征信息时注重颜色的饱和度。
Reference(参考):根据导入的素材图片,由图片的配色,色调,画风,画中的元素,创建出新图片,使画中事物仍然存在多样性差异
reference_only:将输入图像仅作为参考,不对其进行任何形式的风格或内容转换。它允许用户保持原始图像的所有细节和风格,同时可能用于引导生成过程以保持与原始图像的一致性
reference_adain_attn:是一种高级的预处理器,用于在基于图像的生成模型(如DALL-E等)中实现精细的图像控制。它通过将输入图像的参考部分进行高级特征转换,来生成具有参考特征的新图像 ★
reference_adain:一种运用adain风格的搬迁算法,它能够使生成的图像更接近模型,对颜色和脸型的改变特别明显,更侧重于任何二次元风格。
Revision:有效的捕捉到图像中的各种细节信息和特征,对一些复杂的图片进行风格转移,对原图细节处理的也很好,目前只支持SDXL算法大模型,(它的功能就是将图片转化为提示词,类似于提示词反推)
revision_clipvison(CLIP集成嵌入图像提示-作为补充):在原提示词上进行补充,画面以提示词为主,少量元素参考输入参考图
revision_ignore_prompt:忽略原有提示词,画面与提示词无关,全靠输入参考图
T2I-Adapter:挖掘文本到图像扩散模型的更可控能力,为预先训练的文本到图像模型提供额外指导
t2ia_style_clipvision:文本到图像自适应控制-风格迁移,根据参考图的风格,生成新的画面
t2ia_sketch_pidi:文本到图像自适应控制-草绘边缘像素查分,与softedge_pidinet软边缘检测PIDNET算法类似,都是提取线稿
t2ia_color_grid:文本到图像自适应控制-色彩像素化,提取图像中的颜色,根据色块进行填充
Tile(分块)工作方法:根据已有的细节重新生成新的细节
Tile(分块)工作原理:将整张图片分割,切块成单个图块,再多个单个秃噜皮分别进行细节提升,最后再无缝衔接
tile_resample分块-重采样:仅保持图片布局,颜色会进行一些变化
tile_colorfix+sharp分块-固定颜色+锐化:保持图片布局的同时固定图片的颜色,并做一些锐化
tile_colorfiex分块-固定颜色:保持图片布局的同时固定图片的颜色
blur_gaussian模糊-高斯模糊:主要用于调整景深,有虚化,调整图片的模糊度
老师推荐使用的:
Depth(深度)
Lineart(线稿)
OpenPose(姿态)
Tile(分块)
Segmentation(语义分割)
