大家有沒有這樣的困惑:在找模型時(shí)榴啸,老是會(huì)出現(xiàn)一些奇怪的標(biāo)簽孽惰,像 sd1.5、sdxl 之類的模型后綴鸥印,真讓人摸不著頭腦勋功,一會(huì)兒 1.0,一會(huì)兒 1.5库说,一會(huì)兒 XL酝润,完全搞不清楚狀況。今天就來給大家好好講講璃弄,這些讓人一頭霧水的標(biāo)簽究竟是什么意思要销。
首先,咱們得先了解一些與 SD 相關(guān)的基礎(chǔ)知識(shí)夏块。Stable Diffusion 是一種基于概率論的生成模型疏咐,通過特定算法進(jìn)行訓(xùn)練的人工智能,它能夠通過不斷迭代與優(yōu)化脐供,生成高質(zhì)量的圖像和視頻浑塞。
這一介紹揭示了 SD 的本質(zhì),它是一款持續(xù)更新的模型軟件政己。在其發(fā)展進(jìn)程中酌壕,SD 從 1.0 版本起不斷推陳出新,截至目前歇由,推出的版本號(hào)已經(jīng)達(dá)到了3.5卵牍。當(dāng)然關(guān)于3.5和flux之間的問題是下一次的內(nèi)容,這次主要講的是sd1.5和sdxl的歷史沦泌。
先講講 sd 1.0 的發(fā)展歷程糊昙。Stable Diffusion v1.0 于 2022 年 8 月首次公開發(fā)布,隨后在一段時(shí)間內(nèi)陸續(xù)有一些小版本更新谢谦,如 1.0 - 1.4 等释牺。這些版本創(chuàng)新點(diǎn)不多萝衩,主要是在改進(jìn)模型的性能與質(zhì)量方面下功夫。到了 2022 年 10 月没咙,持續(xù)時(shí)間較長(zhǎng)的 sd1.5 版本模型正式推出猩谊。用過 sd 模型的朋友都知道,sd 在生成大尺寸圖片時(shí)祭刚,常常會(huì)出現(xiàn)多重身的現(xiàn)象预柒。這是因?yàn)槟P陀?xùn)練時(shí)采用的是 512 * 512 的圖片,一旦超出這個(gè)規(guī)格袁梗,AI 就會(huì)誤判為要生成兩張圖片宜鸯,所以才會(huì)有多重身的問題。
不得不說遮怜,1.5 版本發(fā)布的時(shí)機(jī)相當(dāng)巧妙淋袖。在那段時(shí)間,由于 sd 的開源特性锯梁,與之匹配的插件層出不窮即碗。因此,盡管 1.5 版本也是用 512 * 512 的圖片訓(xùn)練出來的陌凳,但在豐富的生態(tài)插件助力下剥懒,制作較大像素的圖片也毫無壓力,而且還有各種各樣的風(fēng)格模型合敦,所以 1.5 版本的生態(tài)在幾個(gè)版本中是最為出色的初橘。后續(xù)發(fā)布的 2.0 - 2.1 兩個(gè)版本,雖然圖片的采樣數(shù)量持續(xù)增加充岛,圖片規(guī)格也提升到了 768 * 768保檐,但始終難以取代 1.5 版本的地位。
直到 2023 年 8 月崔梗,sd 的開發(fā)公司又推出了 sdxl 版本的模型夜只。
sdxl 與 sd1.5 存在諸多區(qū)別:
模型組合差異:sd1.5 的生成模型僅有一個(gè);而 sdxl 的生成模型有兩個(gè)蒜魄,能夠靈活組合出圖扔亥。其基礎(chǔ)模型為 base 模型(負(fù)責(zé)潛空間放大),精修模型是 refiner 模型(負(fù)責(zé)細(xì)化放大)谈为。
訓(xùn)練參數(shù)有別:1.5 模型的訓(xùn)練參數(shù)為 9.8 億旅挤,XL 的 base 模型有 35 億參數(shù),refiner 參數(shù)模型更是高達(dá) 65 億峦阁。并且 1.5 訓(xùn)練的圖片分辨率主要是 512 * 512谦铃,XL 的訓(xùn)練圖片則是 1024 * 1024耘成。訓(xùn)練參數(shù)與圖像分辨率的不同榔昔,使得 XL 生成的圖片分辨率更高驹闰,細(xì)節(jié)也更加豐富。
提示詞寫法優(yōu)化:sd1.5 主要使用短語提示詞撒会,而且需要添加諸如考慮更多提示詞各部分權(quán)重嘹朗、提升畫質(zhì)等與圖片內(nèi)容無關(guān)的提示詞。例如诵肛,1.5 版本被人詬病最多的一點(diǎn)就是需要添加更多的 Lora 模型才能生成較好的圖片屹培。而 sdxl 既可以用短語也能用句子生成圖片,無需質(zhì)量詞怔檩,對(duì)自然語言的理解能力更強(qiáng)褪秀。要知道,以往的 sd 都需要使用者學(xué)習(xí)各種復(fù)雜的提示詞薛训,還要善于運(yùn)用各種插件才能生成可用的圖片媒吗。用自然語言生成精美圖片可是另一個(gè) AI 繪畫領(lǐng)域巨頭 Midjourney 的看家本領(lǐng),也是其每月收取 50 美金費(fèi)用的資本所在乙埃,如今這道原本堅(jiān)固的護(hù)城河已逐漸被瓦解闸英。
sdxl生成的圖片展示:
總體而言,使用 sdxl 模型生成圖片的良品率還是比較可觀的介袜。當(dāng)然甫何,這個(gè)良品率也存在一定的局限性。在生成真實(shí)圖片時(shí)遇伞,我覺得用 sdxl 模型生成的底圖辙喂,再結(jié)合 sd 經(jīng)過調(diào)教的真實(shí)系 Lora 模型,效果會(huì)更好鸠珠。而在動(dòng)漫圖片方面加派,借助 sdxl 的自然語言處理能力能夠更輕松地得到理想的構(gòu)圖,再搭配動(dòng)漫畫風(fēng)的模型跳芳,就能收獲不錯(cuò)的成果芍锦。下次再來為大家介紹 sd 目前最為精彩的 sd3.5 大模型以及黑森林推出的 flux 大模型。