Stable Diffusion UI 界面參數(shù)介紹 -文生圖模塊
一另锋、基礎(chǔ)模型和VAE配置
Stable Diffusion 大模型(checkpoint):
釋義:一種深度學習文本到圖像生成模型狭归,也就是俗稱底模(經(jīng)常聽到SD1.0,SD1.5室梅, SD2.0.這是官方發(fā)布的版本)疚宇,基于底模微調(diào)訓練出來的就是大模型(checkpoint),微調(diào)過程中通常使用了大量高質(zhì)量的圖片间涵,所以通嘲褚荆可以生成更高質(zhì)量的圖片抗蠢,也就是Stable diffusion使用的主模型迅矛。
默認文件位置:Stable-diffusion-web-ui/models/Stable-Diffusion/
潜叛,一般為ckpt和safetensors格式 。
優(yōu)秀大模型推薦(civitai.com):
VAE(Variational Auto-Encoder)
釋義:將潛空間的數(shù)據(jù)轉(zhuǎn)換為正常圖像 震嫉,可以簡單理解為濾鏡牡属, 用于圖片亮度和飽和度的修正扼睬、畫面較正和以及補光等。一般在繪圖時如果出現(xiàn)圖片亮度過低措伐、發(fā)灰等問題時就需要用到军俊。
默認文件位置:Stable-diffusion-web-ui/models/VAE/
,VAE 模型的后綴為 .pt 或 .safetensors担败,體積一般為 335M 或 823M。
功能模塊介紹
**txt2img:**通過文本的描述來生成圖片提前。
img2img:通過以已有圖片為基礎(chǔ)生成相似的圖片泳唠。
**Extras:**額外的一些功能,比如圖片放大和去模糊這些功能拓哺。
**PNG info:**獲取圖片信息,若圖片是由AI生成的圖片士鸥,當上傳一張圖片后镶奉,這里會提示圖片的相關(guān)prompt關(guān)鍵字與模型參數(shù)設(shè)置崭放。
**checkpoint merger:**模型合并币砂,可以合并多個模型玻侥,配置多個模型的權(quán)重來生成圖片。
**Train:**通過自己的數(shù)據(jù)集(圖片和相關(guān)數(shù)據(jù))訓練模型凑兰。
Settings: UI界面設(shè)置。
**Extensions:**插件擴展波岛。
提示詞模塊
正向提示詞(prompt)
釋義:對圖片信息的正向描述音半,也就是我們想要圖片展現(xiàn)的樣子,通巢莛可以從人物或主體特征彻桃、場景、環(huán)境邻眷、畫風等角度描述圖片
通用正向提示詞:
中文釋義英文釋義中文釋義英文釋義中文釋義英文釋義高質(zhì)量best quality高細節(jié)highly detailed杰作masterpiece超細節(jié)ultra-detailed插圖illustration
示例:
best quality,masterpiece,highres,cg,
1girl,weapon,sword,long hair,dress,water,solo,jewelry,white dress,earrings,hair ornament,splashing,upper body,hair bun,black hair,lighting,candid,Photograph,high resolution,4k,8k,Bokeh,
負面提示詞(negative_prompt)
釋義:不希望生圖圖片中可能包含的不協(xié)調(diào)內(nèi)容耗溜,比如低分辨率,畸形等等抖拴。
常用提示詞:
中文釋義英文釋義中文釋義英文釋義中文釋義英文釋義低分辨率low resolution解剖結(jié)構(gòu)不良poor anatomy文本text不好的手poor hands錯誤error缺少手指missing fingers額外的手指extra finger少量手指fewer fingers裁剪的cropped最差質(zhì)量worst quality低質(zhì)量low quality普通質(zhì)量normal quality偽影阿宅,偽像artifacts署名,簽名signature水印watermark用戶名username模糊的blurry缺少手臂missing arms長脖子long neck駝背的humpbacked不好的腳poor feet不適宜工作場所NSFW
示例:(((simple background))),monochrome,lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,lowres,bad anatomy,bad hands,text,error,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,ugly,pregnant,vore,duplicate,morbid,mut ilated,tran nsexual,hermaphrodite,long neck,mutated hands,poorly drawn hands,poorly drawn face,mutation,deformed,blurry,bad anatomy,bad proportions,malformed limbs,extra limbs,cloned face,disfigured,gross proportions,(((missing arms))),(((missing legs))),(((extra arms))),(((extra legs))),pubic hair,plump,bad legs,error legs,username,blurry,bad feet,
后面會針對提示詞做一期專欄介紹蛉鹿。
輔助模塊:
LoRA模型:
釋義:LoRA(Low-Rank Adaptation of Large Language Models)往湿,可以理解為大模型的補丁惋戏,用于修改風格/對象响逢。性價比很高(效果好而且訓練較為快速和簡單)棕孙,所以很常用。
默認文件路徑:stable-diffusion-webui\models\Lora
钦铺,LoRA模型通常是10~200 MB肢预,常見格式為ckpt(safetensors)。
LoRA的原理是凍結(jié)預訓練好的模型權(quán)重參數(shù)烫映,然后在每個Transformer塊(利用注意力機制來提高模型訓練速度)里注入可訓練的層,由于不需要對模型的權(quán)重參數(shù)重新計算梯度,所以可以減少參數(shù)量和計算量壕探,提高訓練效率和生成質(zhì)量。
Embedding模型(Textual inversion)
釋義:文本編碼器模型瞧筛,用于改變文字向量导盅。 embedding模型用于定義新關(guān)鍵字來生成新的對象或風格的小文件(多用于風格引導),可以將其理解為一組 Prompt乍炉。
默認文件路徑: stable-diffusion-webui\embeddings
,后綴為 .pt 或者 .safetensors岛琼,體積非常小,一般只有幾 kb槐瑞。
個人理解作用機制是通過文字向量的方式特定提示詞可以指向特定的角色或者風格困檩,從而使得可以生成我們想要的人物形象或者風格祠挫。
hypernetworks模型
釋義:hypernetworks是 Stable Diffusion 的微調(diào)模型之一等舔,可以根據(jù)自己的圖片訓練一個小部分的神經(jīng)網(wǎng)絡显沈,生成一個新的權(quán)重,然后用這個權(quán)重來改變生成圖片的風格涤浇。較少使用(未驗證)
默認文件路徑:stable-diffusion-webui\models\hypernetworks
魔慷,通常為 5~300 MB,常見格式為pt蜻展。邀摆。
基礎(chǔ)參數(shù)配置
特性描述采樣方法(sample method)生成圖片過程中降噪算法,不同算法對于不同類型的圖片最終成效的效果有所差異栋盹,帶++的算法是優(yōu)化過的,默認推薦R-ESRGAN 4x+汉额,偏向二次元的算法推薦R-ESRGAN 4x+ Anime6B蠕搜,效果不錯收壕。采樣迭代步數(shù)(sampling steps)加噪和去噪的過程,也就是生成圖片不斷調(diào)整的次數(shù)蜜宪,理論上步驟越多,每一步移動也就越小越精確告丢,同時也成比例增加生成圖像所需要的時間,但基本上超過50的迭代次數(shù)沒有明顯的效果岳颇,結(jié)合生成效果和時間等颅湘,可以參考模型創(chuàng)作者推薦的迭代步數(shù)。面部修復(restore faces)對生成圖片的人物面部(主要是真人)進行修復闯参,讓人臉更像真人的人臉,提供更多面部細節(jié)新博。平鋪/分塊(Tiling)將過大的圖片分塊生成脚草,降低顯存要求高清修復(Hirres fix)把低分辨率的照片調(diào)整到高分辨率。在較低的分辨率下部分渲染你的圖片埂淮,再通過算法提高圖片到高分辨率写隶,然后在高分辨率下再添加細節(jié)。寬高(width/ height)圖片的寬高尺寸慕趴。提示詞相關(guān)性(CFG scale)圖像和提示詞的匹配程度秩贰,相關(guān)性越高柔吼,AI在提示詞基礎(chǔ)上自由發(fā)揮的程度越低。 增加這個值將導致圖像更接近你的提示,但過高可能會讓圖像色彩過于飽和愈魏,太高后在一定程度上降低了圖像質(zhì)量∠澹可以適當增加采樣步驟來抵消畫質(zhì)的劣化畸悬。生成批次(batch count)總共生成多少批次的圖片單批生成數(shù)量(batch size)單一批次的生成圖片數(shù)量珊佣,注意數(shù)量限制披粟,避免顯存爆炸冷冗。隨機種子(seed)SD通過特定算法計算出的固定值蒿辙,seed一樣的情況下,可以生成比較相似的圖片重繪幅度(denoising strength)可以理解為AI在提示詞基礎(chǔ)上自由發(fā)揮的程度思灌,重繪幅度越大,圖片與原始圖片越不相似绪颖,越小與原始圖片越相似甜奄。放大倍數(shù)(Upscale by)在原有寬度和長度上的放大倍數(shù),拉高需要更高的顯存牍氛。
圖片展示及再操作欄
上面就是文生圖的一些基本介紹啦烟阐,如有疑問,可以在評論區(qū)交流哦唉擂!