IP-Adapter

https://github.com/tencent-ailab/IP-Adapter.git

如何更精準(zhǔn)地控制SD生成圖片的結(jié)果,不需要復(fù)雜的描述工程,不需要重新微調(diào)base model,核心思想就是一圖勝千言,在text embedding cross attention之外,再加一個(gè)image embedding cross attention,稱(chēng)之為decoupled cross-attention撞鹉,可適用于同一個(gè)BaseModel下的所有微調(diào)模型∮敝叮可用于T2I/I2I/Inpainting鸟雏,也可結(jié)合controlnet一起使用,除了能控制風(fēng)格外览祖,還有IP-Adapter-FaceID(PLUS/SDXL)系列可用于控制人物身份(換臉)孝鹊,可在WebUI或者ComfyUI中使用。效果如下所示


IP-Adapter用法

ControlNet主要利用圖像結(jié)構(gòu)上的先驗(yàn)信息如邊緣/分割/深度/線條等來(lái)控制圖片的生成(雖然也有Reference Only或者Shuffle等控制圖片語(yǔ)義或者風(fēng)格的方法穴墅,但控制粒度和效果仍有提升空間)惶室,T2I-Adapter比ControlNet更加輕量,但是效果一般不如后者玄货,其中的Style Adapter將CLIP Image Encoder Feature與CLIP Text Encoder? Feature進(jìn)行結(jié)合皇钞,然后送入Cross Attention。Uni-ControlNet也有類(lèi)似操作松捉,將Condition Embedding和Text Embedding進(jìn)行Concat夹界,SeeCoder則是直接將CLIP Text Encoder替換為一個(gè)新的Image Encoder,以此來(lái)進(jìn)行圖像修改隘世。上述直接將圖像特征和文本特征融合之后直接插進(jìn)一個(gè)固定的Cross Attention層的操作似乎沒(méi)能捕捉圖片的精細(xì)語(yǔ)義可柿,因此效果有限。

IP-Adapter的結(jié)構(gòu)如下:

IP- Adapter

先看Prompt Embedding如何被插入U(xiǎn)net中丙者,Unet中的latent噪聲特征計(jì)為Query复斥,CLIP Text Embedding分別經(jīng)過(guò)兩個(gè)全連接層得到Key,Value械媒,則Cross Attention表達(dá)為:


Text Embedding Cross Attention

既然將圖片特征與文本特征concat效果不好目锭,那就干脆再設(shè)計(jì)一個(gè)Cross Attention專(zhuān)門(mén)用于插入圖像特征,意即CLIP Image Embedding分別經(jīng)過(guò)兩個(gè)全連接層得到Key纷捞,Value痢虹,同樣以latent噪聲特征作為Query,形成一個(gè)并行的Cross Attention:


Image Embedding Cross Attention

兩個(gè)注意力共用一個(gè)Query主儡,為加速收斂奖唯,新增的兩個(gè)全連接層參數(shù)由原先的Cross Attention中的全連接層初始化而來(lái)。將兩個(gè)注意力的計(jì)算結(jié)果相加:

decoupled cross-attention out

用一個(gè)小網(wǎng)絡(luò)(FC+LN)來(lái)將圖片特征映射到與文本特征同樣維度糜值,固定住Unet丰捷,只訓(xùn)練新增的Cross Attention層和這個(gè)小網(wǎng)絡(luò)坯墨。

以圖像文本對(duì)進(jìn)行訓(xùn)練,損失函數(shù)為噪聲間的MSE瓢阴,在訓(xùn)練過(guò)程中隨機(jī)關(guān)閉Image Prompt(將CLIP Image Feature置為0)畅蹂,以此來(lái)開(kāi)啟classifier-free guidance訓(xùn)練。具體地荣恐,給定一個(gè)權(quán)重參數(shù)\lambda ,該參數(shù)為零時(shí)則為原始T2I-SD模型累贤。

LAION-2B+COYO-700M構(gòu)建一個(gè)一千萬(wàn)的圖文對(duì)叠穆。

使用OpenCLIP ViT-H/14作為Image Encoder,為16個(gè)text cross attention layer都新增一個(gè)image cross attention layer臼膏,8卡A100訓(xùn)練100萬(wàn)步硼被,使用DeepSpeed Stage 2配置,單卡batch size為8渗磅,可學(xué)習(xí)參數(shù)為22M嚷硫,學(xué)習(xí)率1e-4,weight decay 0.01始鱼,將圖片短邊resize到512仔掸,center crop出512x512的區(qū)域,以0.05的概率分別丟棄Image或者Text医清,再以0.05的概率同時(shí)丟棄Image和Text起暮。測(cè)試時(shí)如只使用Image Prompt,將上述權(quán)重參數(shù)設(shè)置為1会烙。

與其他方法的比較:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末负懦,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子柏腻,更是在濱河造成了極大的恐慌纸厉,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件五嫂,死亡現(xiàn)場(chǎng)離奇詭異颗品,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)贫导,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門(mén)抛猫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人孩灯,你說(shuō)我怎么就攤上這事闺金。” “怎么了峰档?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵败匹,是天一觀的道長(zhǎng)寨昙。 經(jīng)常有香客問(wèn)我,道長(zhǎng)掀亩,這世上最難降的妖魔是什么舔哪? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮槽棍,結(jié)果婚禮上捉蚤,老公的妹妹穿的比我還像新娘。我一直安慰自己炼七,他們只是感情好缆巧,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著豌拙,像睡著了一般陕悬。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上按傅,一...
    開(kāi)封第一講書(shū)人閱讀 51,763評(píng)論 1 307
  • 那天捉超,我揣著相機(jī)與錄音,去河邊找鬼唯绍。 笑死拼岳,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的推捐。 我是一名探鬼主播裂问,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼牛柒!你這毒婦竟也來(lái)了堪簿?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤皮壁,失蹤者是張志新(化名)和其女友劉穎椭更,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蛾魄,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡虑瀑,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了滴须。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片舌狗。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖扔水,靈堂內(nèi)的尸體忽然破棺而出痛侍,到底是詐尸還是另有隱情,我是刑警寧澤魔市,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布主届,位于F島的核電站赵哲,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏君丁。R本人自食惡果不足惜枫夺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望绘闷。 院中可真熱鬧橡庞,春花似錦、人聲如沸簸喂。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)喻鳄。三九已至,卻和暖如春确封,著一層夾襖步出監(jiān)牢的瞬間除呵,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工爪喘, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留颜曾,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓秉剑,卻偏偏與公主長(zhǎng)得像泛豪,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子侦鹏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容