<section data-tool="mdnice編輯器" data-website="https://www.mdnice.com" style="font-size: 16px; color: black; padding-right: 10px; padding-left: 10px; line-height: 1.6; letter-spacing: 0px; word-break: break-word; text-align: left; font-family: Optima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif; visibility: visible;" data-mpa-powered-by="yiban.io"><h1 data-tool="mdnice編輯器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">ECCV2022 Oral | MaskCLIP</span><span style="visibility: visible;"></span></h1><h1 data-tool="mdnice編輯器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">【寫(xiě)在前面】</span><span style="visibility: visible;"></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練(CLIP)在開(kāi)放詞匯零樣本圖像識(shí)別方面取得了顯著突破。許多最近的研究利用預(yù)訓(xùn)練的 CLIP 模型進(jìn)行圖像級(jí)分類(lèi)和操作羡棵。在本文中壹若,作者希望檢驗(yàn) CLIP 在像素級(jí)密集預(yù)測(cè)方面的內(nèi)在潛力,特別是在語(yǔ)義分割方面皂冰。為此店展,作者通過(guò)最少的修改展示了 MaskCLIP 在沒(méi)有注釋和微調(diào)的情況下,在跨各種數(shù)據(jù)集的開(kāi)放概念上產(chǎn)生了令人信服的分割結(jié)果秃流。通過(guò)添加偽標(biāo)簽和自訓(xùn)練赂蕴,MaskCLIP+ 大大超過(guò)了 SOTA 轉(zhuǎn)導(dǎo)零樣本語(yǔ)義分割方法,例如舶胀,PASCAL VOC/PASCAL Context/COCO Stuff 上未見(jiàn)類(lèi)的 mIoU 從 35.6/20.7/30.3 提高到 86.1/66.7 /54.7概说。作者還測(cè)試了 MaskCLIP 在輸入損壞下的魯棒性,并評(píng)估了它在區(qū)分細(xì)粒度對(duì)象和新概念方面的能力嚣伐。本文的發(fā)現(xiàn)表明糖赔,MaskCLIP 可以作為密集預(yù)測(cè)任務(wù)的新可靠監(jiān)督來(lái)源,以實(shí)現(xiàn)無(wú)注釋分割轩端。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">1. 論文和代碼地址</span><span style="visibility: visible;"></span></h1><figure data-tool="mdnice編輯器" style="margin-top: 10px; margin-bottom: 10px; display: flex; flex-direction: column; justify-content: center; align-items: center; visibility: visible;"><img class="rich_pages wxw-img" data-ratio="0.38934426229508196" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJLRMeIhl1VmNpdibpXXHiamSJcmHoqENUUSbyia3fUzcHxpZcD0wpq36ew/640?wx_fmt=png" data-type="png" data-w="488" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 488px !important;" data-index="1" data-origin-display="block" width="488px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-8868094dc0187654.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">Extract Free Dense Labels from CLIP</p><p data-tool="mdnice編輯器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">論文地址:<span style="color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">https://arxiv.org/abs/2112.01071</span><sup style="line-height: 0; color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">[1]</p><p data-tool="mdnice編輯器" style="padding-top: 8px; padding-bottom: 8px; line-height: 26px; visibility: visible;">代碼地址:<span style="color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">https://github.com/chongzhou96/MaskCLIP</span><sup style="line-height: 0; color: rgb(30, 107, 184); font-weight: bold; visibility: visible;">[2]</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px; margin-bottom: 15px; font-weight: bold; font-size: 24px; visibility: visible;"><span style="display: none;"></span><span style="visibility: visible;">2. 動(dòng)機(jī)</span><span style="visibility: visible;"></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">諸如 CLIP之類(lèi)的大規(guī)模視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型捕獲富有表現(xiàn)力的視覺(jué)和語(yǔ)言特征放典。各種下游視覺(jué)任務(wù),例如文本驅(qū)動(dòng)的圖像處理、圖像字幕奋构、視圖合成和對(duì)象檢測(cè)壳影,都試圖利用這些特征來(lái)提高通用性和魯棒性。例如声怔,基于原始 CLIP 特征進(jìn)行零樣本圖像分類(lèi)會(huì)導(dǎo)致一種與完全監(jiān)督對(duì)應(yīng)物的性能相匹配的競(jìng)爭(zhēng)方法态贤。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在本文中,作者進(jìn)一步探索了 CLIP 特征在語(yǔ)義分割等像素級(jí)密集預(yù)測(cè)任務(wù)中的適用性醋火。這項(xiàng)調(diào)查是有意義的悠汽,因?yàn)橐郧暗难芯恐饕?CLIP 特征作為全局圖像表示。相比之下芥驳,<strong>本文的探索希望確定 CLIP 特征在封裝對(duì)象級(jí)和局部語(yǔ)義以進(jìn)行密集預(yù)測(cè)的程度</strong>柿冲。與對(duì)標(biāo)志性圖像進(jìn)行圖像分類(lèi)的傳統(tǒng)預(yù)訓(xùn)練任務(wù)不同,CLIP 從復(fù)雜場(chǎng)景的圖像及其自然語(yǔ)言描述中學(xué)習(xí)兆旬,這(1)<strong>鼓勵(lì)它將局部圖像語(yǔ)義嵌入其特征中</strong>假抄,(2)<strong>使其能夠?qū)W習(xí)開(kāi)放詞匯表中的概念</strong>,以及(3)<strong>捕獲豐富的上下文信息丽猬,例如某些對(duì)象的共現(xiàn)/關(guān)系和空間位置的先驗(yàn)</strong>宿饱。作者相信所有這些優(yōu)點(diǎn)都極大地促進(jìn)了其在密集預(yù)測(cè)任務(wù)中的潛力。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在本文中脚祟,總結(jié)了利用 CLIP 特征進(jìn)行密集預(yù)測(cè)的成功和失敗經(jīng)驗(yàn)谬以。作者發(fā)現(xiàn)不破壞原始 CLIP 特征空間中的視覺(jué)語(yǔ)言關(guān)聯(lián)至關(guān)重要。在本文早期的探索中由桌,作者在嘗試微調(diào) CLIP 的圖像編碼器以進(jìn)行分割任務(wù)時(shí)遇到了失敗为黎,例如,使用 CLIP 的圖像編碼器的權(quán)重初始化 DeepLab并微調(diào)分割的主干行您。此外铭乾,作者發(fā)現(xiàn)避免任何不必要的嘗試操縱 CLIP 的文本嵌入是至關(guān)重要的。這種方法在分割看不見(jiàn)的類(lèi)時(shí)會(huì)失敗娃循。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">在名為 MaskCLIP 的成功模型中炕檩,作者展示了可以簡(jiǎn)單地從 CLIP 的圖像編碼器中提取密集的patch級(jí)特征,即最后一個(gè)注意層的值特征捌斧,而不會(huì)破壞視覺(jué)語(yǔ)言關(guān)聯(lián)捧书。密集預(yù)測(cè)的分類(lèi)權(quán)重,本質(zhì)上是 1×1 卷積骤星,可以直接從 CLIP 文本編碼器的文本嵌入中獲得经瓷,無(wú)需任何刻意的映射。在實(shí)證研究中洞难,MaskCLIP 在通過(guò) mIoU 度量和定性結(jié)果測(cè)量的定量性能方面產(chǎn)生了合理的預(yù)測(cè)舆吮。此外,MaskCLIP 可以基于 CLIP 的所有變體,包括 ResNets 和 ViTs色冀。作者提供了兩個(gè)流行的骨干網(wǎng)絡(luò)之間的并排比較潭袱。作者還為 MaskCLIP 提出了兩種掩碼細(xì)化技術(shù)以進(jìn)一步提高其性能,即<strong>key smoothing</strong>和<strong>prompt denoising</strong>锋恬,兩者都不需要訓(xùn)練屯换。具體來(lái)說(shuō),鍵平滑(key smoothing)計(jì)算不同塊的鍵特征(最后一個(gè)注意層)之間的相似性与学,用于平滑預(yù)測(cè)彤悔。提示去噪(prompt denoising)去除了圖像中不太可能存在的類(lèi)別的提示,因此干擾更少索守,預(yù)測(cè)變得更準(zhǔn)確晕窑。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">然而,MaskCLIP 的分割能力很難進(jìn)一步提高卵佛,因?yàn)樗募軜?gòu)僅限于 CLIP 的圖像編碼器杨赤。為了從架構(gòu)約束中放松 MaskCLIP 并結(jié)合更高級(jí)的架構(gòu),例如 PSPNet和 DeepLab截汪,作者注意到疾牲,可以在訓(xùn)練時(shí)部署它,而不是在推理時(shí)部署 MaskCLIP衙解,它用作提供高質(zhì)量偽標(biāo)簽的通用且穩(wěn)健的注釋器说敏。與標(biāo)準(zhǔn)的自訓(xùn)練策略一起生成的模型,稱(chēng)為 MaskCLIP+丢郊,實(shí)現(xiàn)了驚人的性能。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.47692307692307695" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJczjNDGKTM3RkkwPcqUTwyTrXGzUDCt5diaCNUAUDjgYib2iakuo8OPnTQ/640?wx_fmt=png" data-type="png" data-w="715" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="2" data-origin-display="block" width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-48a975056729b734.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">除了無(wú)注釋和開(kāi)放詞匯分割之外医咨,MaskCLIP+ 還可以應(yīng)用于零樣本語(yǔ)義分割任務(wù)枫匾,其中 MaskCLIP 只為看不見(jiàn)的類(lèi)生成偽標(biāo)簽。在三個(gè)標(biāo)準(zhǔn)分割基準(zhǔn)上拟淮,即 PASCAL VOC 干茉、PASCAL Context 和 COCO Stuff,MaskCLIP+ 在未見(jiàn)類(lèi)的 mIoU 方面將最先進(jìn)的結(jié)果提高了50.5%很泊,46% 和 24.4%(35.6 → 86.1角虫、20.7 → 66.7 和 30.3 → 54.7)。由于 CLIP 特征的通用性和魯棒性委造,MaskCLIP+ 可以很容易地應(yīng)用于語(yǔ)義分割的各種擴(kuò)展設(shè)置戳鹅,包括細(xì)粒度類(lèi)(例如,白色汽車(chē)和紅色巴士等屬性條件類(lèi))或新概念(例如蝙蝠俠和小丑如上圖所示)昏兆,以及中度損壞輸入的分割枫虏。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">語(yǔ)義分割因其對(duì)標(biāo)記訓(xùn)練數(shù)據(jù)的高度依賴(lài)而被限制。已經(jīng)探索了許多方法來(lái)繞過(guò)這種嚴(yán)格的要求,例如隶债,通過(guò)使用圖像標(biāo)簽腾它、邊界框和涂鴉等弱標(biāo)簽。本文的研究首次表明死讹,通過(guò)大規(guī)模視覺(jué)語(yǔ)言預(yù)訓(xùn)練學(xué)習(xí)的特征可以很容易地用于促進(jìn)開(kāi)放詞匯密集預(yù)測(cè)瞒滴。所提出的模型 MaskCLIP 在為訓(xùn)練現(xiàn)有方法提供豐富且有意義的密集偽標(biāo)簽方面顯示出巨大的潛力。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>3. 方法</span><span></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">本文的研究是探索 CLIP 特征對(duì)像素級(jí)密集預(yù)測(cè)任務(wù)的適用性的早期嘗試赞警。作者首先簡(jiǎn)要介紹 CLIP 和一個(gè)簡(jiǎn)單的解決方案作為初步妓忍,然后詳細(xì)介紹提議的 MaskCLIP。</p><h2 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.1 Preliminary on CLIP</span><span></span></h2><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">CLIP是一種視覺(jué)語(yǔ)言預(yù)訓(xùn)練方法仅颇,它從大規(guī)模的原始網(wǎng)絡(luò)策劃的圖像-文本對(duì)中學(xué)習(xí)視覺(jué)和語(yǔ)言表示单默。它由一個(gè)圖像編碼器 <span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{V}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1714 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 3.878ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="56" d="M25 633Q25 647 47 665T100 683Q291 683 291 306Q291 264 288 213T282 132L279 102Q281 102 308 126T378 191T464 279T545 381T596 479Q600 490 600 502Q600 527 581 550T523 577Q505 577 505 601Q505 622 516 647T542 681Q546 683 558 683Q605 679 631 645T658 559Q658 423 487 215Q409 126 308 37T190 -52Q177 -52 177 -28Q177 -26 183 15T196 127T203 270Q203 356 192 421T165 523T126 583T83 613T41 620Q25 620 25 633Z"></path></g></g><g data-mml-node="mo" transform="translate(658, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1047, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1325, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>和一個(gè)文本編碼器<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{T}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1889 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.274ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="54" d="M49 475Q34 475 34 490Q34 552 106 611T261 681Q272 683 507 683H742Q790 717 816 717Q833 717 833 708Q833 682 795 653T714 615Q691 610 588 609Q490 609 490 607L483 580Q476 554 462 496T435 392Q410 289 395 231T363 116T335 34T309 -15T279 -47T242 -64Q231 -68 218 -68Q203 -68 203 -57Q203 -52 211 -38Q224 -7 234 20T251 66T268 123T283 179T304 261T328 360Q342 415 360 488Q380 567 384 582T397 605Q400 607 401 609H302H244Q200 609 188 607T167 596Q145 572 145 541Q145 520 109 498T49 475Z"></path></g></g><g data-mml-node="mo" transform="translate(833, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1222, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1500, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>組成,兩者聯(lián)合訓(xùn)練以分別將輸入圖像和文本映射到一個(gè)統(tǒng)一的表示空間中忘瓦。CLIP采用對(duì)比學(xué)習(xí)作為其訓(xùn)練目標(biāo)搁廓,將ground-truth圖文對(duì)視為正樣本,將不匹配的圖文對(duì)構(gòu)造為負(fù)樣本耕皮。在實(shí)踐中境蜕,文本編碼器被實(shí)現(xiàn)為 Transformer。至于圖像編碼器凌停,CLIP 提供了兩種替代實(shí)現(xiàn)粱年,即 Transformer 和具有全局注意力池化層的 ResNet。本文的方法可以基于兩種編碼器架構(gòu)罚拟。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者認(rèn)為 CLIP 在學(xué)習(xí)將圖像內(nèi)容與自然語(yǔ)言描述相關(guān)聯(lián)時(shí)台诗,在其特征中固有地嵌入了局部圖像語(yǔ)義,后者包含跨多個(gè)粒度的復(fù)雜而密集的語(yǔ)義指導(dǎo)赐俗。例如檩电,為了正確識(shí)別圖像對(duì)應(yīng)于當(dāng)裁判看著時(shí)擊球手準(zhǔn)備揮桿的描述挎峦,CLIP 必須將圖像語(yǔ)義劃分為局部片段纪铺,并將圖像語(yǔ)義與單個(gè)提到的概念(如人)正確對(duì)齊, bat, swing, patch, man at bat, man at patch 和 man ready to swing娩梨,而不是將圖像作為一個(gè)整體來(lái)處理。這種獨(dú)特性在僅使用圖像標(biāo)簽的訓(xùn)練中是不存在的叔扼。</p><h2 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.2 Conventional Fine-Tuning Hinders Zero-Shot Ability</span><span></span></h2><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">當(dāng)前訓(xùn)練分割網(wǎng)絡(luò)的實(shí)際管道是(1)使用 ImageNet 預(yù)訓(xùn)練的權(quán)重初始化主干網(wǎng)絡(luò)事哭,(2)添加具有隨機(jī)初始化權(quán)重的特定于分割的網(wǎng)絡(luò)模塊,以及(3)聯(lián)合微調(diào)調(diào)整主干和新添加的模塊瓜富。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">遵循這些標(biāo)準(zhǔn)步驟來(lái)調(diào)整 CLIP 進(jìn)行分割是很自然的鳍咱。在這里,作者通過(guò)在 DeepLab上應(yīng)用這個(gè)管道和兩個(gè)特定于 CLIP 的修改來(lái)開(kāi)始本文的探索与柑。具體來(lái)說(shuō)流炕,作者首先將 ImageNet 預(yù)訓(xùn)練的權(quán)重替換為 CLIP 圖像編碼器的權(quán)重澎现。其次,采用映射器 M 將 CLIP 的文本嵌入映射到 DeepLab 分類(lèi)器(最后一個(gè) 1×1 卷積層)的權(quán)重每辟。修改后的模型可以表述如下:</p><span style="cursor:pointer;" data-tool="mdnice編輯器"><section role="presentation" data-formula="\begin{aligned} \operatorname{DeepLab}(x) &=\mathcal{C}{\phi}\left(\mathcal{H}\left(\mathcal{V}{* l}(x)\right)\right), \ \phi &=\mathcal{M}(t), \end{aligned}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -2.087ex;width: 29.021ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0I9y2piciaPeyaQ00ajSTcJHJzjssx98awL3V101Mgre5IOaawbMicia4Zppq576VLaJTic/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">其中<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{V}{* l}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2283.3 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 5.166ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="56" d="M25 633Q25 647 47 665T100 683Q291 683 291 306Q291 264 288 213T282 132L279 102Q281 102 308 126T378 191T464 279T545 381T596 479Q600 490 600 502Q600 527 581 550T523 577Q505 577 505 601Q505 622 516 647T542 681Q546 683 558 683Q605 679 631 645T658 559Q658 423 487 215Q409 126 308 37T190 -52Q177 -52 177 -28Q177 -26 183 15T196 127T203 270Q203 356 192 421T165 523T126 583T83 613T41 620Q25 620 25 633Z"></path></g></g><g data-mml-node="TeXAtom" transform="translate(613, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mo"><path data-c="2217" d="M229 286Q216 420 216 436Q216 454 240 464Q241 464 245 464T251 465Q263 464 273 456T283 436Q283 419 277 356T270 286L328 328Q384 369 389 372T399 375Q412 375 423 365T435 338Q435 325 425 315Q420 312 357 282T289 250L355 219L425 184Q434 175 434 161Q434 146 425 136T401 125Q393 125 383 131T328 171L270 213Q283 79 283 63Q283 53 276 44T250 35Q231 35 224 44T216 63Q216 80 222 143T229 213L171 171Q115 130 110 127Q106 124 100 124Q87 124 76 134T64 161Q64 166 64 169T67 175T72 181T81 188T94 195T113 204T138 215T170 230T210 250L74 315Q65 324 65 338Q65 353 74 363T98 374Q106 374 116 368T171 328L229 286Z"></path></g><g data-mml-node="mi" transform="translate(500, 0)"><path data-c="6C" d="M117 59Q117 26 142 26Q179 26 205 131Q211 151 215 152Q217 153 225 153H229Q238 153 241 153T246 151T248 144Q247 138 245 128T234 90T214 43T183 6T137 -11Q101 -11 70 11T38 85Q38 97 39 102L104 360Q167 615 167 623Q167 626 166 628T162 632T157 634T149 635T141 636T132 637T122 637Q112 637 109 637T101 638T95 641T94 647Q94 649 96 661Q101 680 107 682T179 688Q194 689 213 690T243 693T254 694Q266 694 266 686Q266 675 193 386T118 83Q118 81 118 75T117 65V59Z"></path></g></g></g><g data-mml-node="mo" transform="translate(1227.3, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1616.3, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1894.3, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>表示 DeepLab 主干剑辫,它是一個(gè)擴(kuò)大了 l 倍的 ResNet。<span style="cursor:pointer;"><span role="presentation" data-formula=" H(·) " data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1944 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.398ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="48" d="M228 637Q194 637 192 641Q191 643 191 649Q191 673 202 682Q204 683 219 683Q260 681 355 681Q389 681 418 681T463 682T483 682Q499 682 499 672Q499 670 497 658Q492 641 487 638H485Q483 638 480 638T473 638T464 637T455 637Q416 636 405 634T387 623Q384 619 355 500Q348 474 340 442T328 395L324 380Q324 378 469 378H614L615 381Q615 384 646 504Q674 619 674 627T617 637Q594 637 587 639T580 648Q580 650 582 660Q586 677 588 679T604 682Q609 682 646 681T740 680Q802 680 835 681T871 682Q888 682 888 672Q888 645 876 638H874Q872 638 869 638T862 638T853 637T844 637Q805 636 794 634T776 623Q773 618 704 340T634 58Q634 51 638 51Q646 48 692 46H723Q729 38 729 37T726 19Q722 6 716 0H701Q664 2 567 2Q533 2 504 2T458 2T437 1Q420 1 420 10Q420 15 423 24Q428 43 433 45Q437 46 448 46H454Q481 46 514 49Q520 50 522 50T528 55T534 64T540 82T547 110T558 153Q565 181 569 198Q602 330 602 331T457 332H312L279 197Q245 63 245 58Q245 51 253 49T303 46H334Q340 38 340 37T337 19Q333 6 327 0H312Q275 2 178 2Q144 2 115 2T69 2T48 1Q31 1 31 10Q31 12 34 24Q39 43 44 45Q48 46 59 46H65Q92 46 125 49Q139 52 144 61Q147 65 216 339T285 628Q285 635 228 637Z"></path></g><g data-mml-node="mo" transform="translate(888, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1277, 0)"><path data-c="B7" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1555, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>表示隨機(jī)初始化的ASPP模塊渠欺,<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{C}{\phi}(\cdot)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2054.4 1045" aria-hidden="true" style="vertical-align: -0.667ex;width: 4.648ex;height: 2.364ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="43" d="M201 -25Q167 -25 136 -14T75 23T29 94T12 202Q12 290 50 394T161 574Q227 642 303 673T433 704Q435 705 457 705Q533 701 533 640Q533 606 507 548T464 474Q431 444 396 444Q381 444 381 453Q381 459 388 473T407 513T428 563Q433 580 433 594Q433 636 381 636Q314 636 260 594T175 489T128 363T112 247Q112 157 153 101T273 44Q347 44 398 121Q413 144 437 157T481 171Q496 171 496 160Q496 150 476 123Q426 56 350 16T201 -25Z"></path></g></g><g data-mml-node="TeXAtom" transform="translate(527, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="3D5" d="M409 688Q413 694 421 694H429H442Q448 688 448 686Q448 679 418 563Q411 535 404 504T392 458L388 442Q388 441 397 441T429 435T477 418Q521 397 550 357T579 260T548 151T471 65T374 11T279 -10H275L251 -105Q245 -128 238 -160Q230 -192 227 -198T215 -205H209Q189 -205 189 -198Q189 -193 211 -103L234 -11Q234 -10 226 -10Q221 -10 206 -8T161 6T107 36T62 89T43 171Q43 231 76 284T157 370T254 422T342 441Q347 441 348 445L378 567Q409 686 409 688ZM122 150Q122 116 134 91T167 53T203 35T237 27H244L337 404Q333 404 326 403T297 395T255 379T211 350T170 304Q152 276 137 237Q122 191 122 150ZM500 282Q500 320 484 347T444 385T405 400T381 404H378L332 217L284 29Q284 27 285 27Q293 27 317 33T357 47Q400 66 431 100T475 170T494 234T500 282Z"></path></g></g></g><g data-mml-node="mo" transform="translate(998.4, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1387.4, 0)"><path data-c="22C5" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1665.4, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>是DeepLab分類(lèi)器妹蔽,其權(quán)重記為<span style="cursor:pointer;"><span role="presentation" data-formula="\phi" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 596 899" aria-hidden="true" style="vertical-align: -0.464ex;width: 1.348ex;height: 2.034ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="3D5" d="M409 688Q413 694 421 694H429H442Q448 688 448 686Q448 679 418 563Q411 535 404 504T392 458L388 442Q388 441 397 441T429 435T477 418Q521 397 550 357T579 260T548 151T471 65T374 11T279 -10H275L251 -105Q245 -128 238 -160Q230 -192 227 -198T215 -205H209Q189 -205 189 -198Q189 -193 211 -103L234 -11Q234 -10 226 -10Q221 -10 206 -8T161 6T107 36T62 89T43 171Q43 231 76 284T157 370T254 422T342 441Q347 441 348 445L378 567Q409 686 409 688ZM122 150Q122 116 134 91T167 53T203 35T237 27H244L337 404Q333 404 326 403T297 395T255 379T211 350T170 304Q152 276 137 237Q122 191 122 150ZM500 282Q500 320 484 347T444 385T405 400T381 404H378L332 217L284 29Q284 27 285 27Q293 27 317 33T357 47Q400 66 431 100T475 170T494 234T500 282Z"></path></g></g></g></svg></span></span>,由CLIP的文本嵌入通過(guò)映射器M確定挠将。理想情況下,通過(guò)更新分類(lèi)器權(quán)重與相應(yīng)的文本嵌入舔稀,適應(yīng)的 DeepLab 能夠在不重新訓(xùn)練的情況下分割不同的類(lèi)乳丰。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">為了評(píng)估這個(gè)修改后的 DeepLab 在可見(jiàn)和不可見(jiàn)類(lèi)上的分割性能,作者在數(shù)據(jù)集中的一個(gè)類(lèi)子集上對(duì)其進(jìn)行訓(xùn)練内贮,將其余類(lèi)視為不可見(jiàn)類(lèi)产园。作者已經(jīng)嘗試了一系列映射器架構(gòu)。盡管它們?cè)诳梢?jiàn)類(lèi)上表現(xiàn)良好夜郁,但在所有這些情況下什燕,修改后的 DeepLab 都未能以令人滿(mǎn)意的性能分割不可見(jiàn)的類(lèi)。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者假設(shè)這主要是因?yàn)?CLIP 特征的原始視覺(jué)語(yǔ)言關(guān)聯(lián)已被打破:(1)<strong>主干在網(wǎng)絡(luò)架構(gòu)方面與圖像編碼器略有不同</strong>竞端; (2) <strong>從圖像編碼器初始化的權(quán)重在微調(diào)期間已經(jīng)更新</strong>屎即; (3)** 引入了一個(gè)額外的映射器,它僅在所見(jiàn)類(lèi)的數(shù)據(jù)上進(jìn)行訓(xùn)練事富,因此導(dǎo)致通用性不足**技俐。</p><h2 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.3 MaskCLIP</span><span></span></h2><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.6507042253521127" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJaKWTuK4PNWtFCnSPqx2B9P8ibQN53nhOJjj6vxtUAyuicF7cXlPxpKKA/640?wx_fmt=png" data-type="png" data-w="710" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="3" data-origin-display="block" width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-6dae1489be1ce4e8.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">微調(diào)嘗試失敗,作者轉(zhuǎn)向避免引入額外參數(shù)和修改 CLIP 特征空間的解決方案统台。為此雕擂,重新審視了 CLIP 的圖像編碼器,尤其是其獨(dú)特的全局注意力池化層饺谬。如上圖(b) 所示,與傳統(tǒng)的全局平均池化不同谣拣,CLIP 的圖像編碼器采用 Transformer 式的多頭注意力層募寨,其中全局平均池化的特征作為查詢(xún),每個(gè)空間位置的特征生成一個(gè) key-value對(duì)森缠。因此拔鹰,該層的輸出是輸入特征圖的空間加權(quán)和,然后是線(xiàn)性層 <span style="cursor:pointer;"><span role="presentation" data-formula="F(·)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 1805 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.084ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="46" d="M48 1Q31 1 31 11Q31 13 34 25Q38 41 42 43T65 46Q92 46 125 49Q139 52 144 61Q146 66 215 342T285 622Q285 629 281 629Q273 632 228 634H197Q191 640 191 642T193 659Q197 676 203 680H742Q749 676 749 669Q749 664 736 557T722 447Q720 440 702 440H690Q683 445 683 453Q683 454 686 477T689 530Q689 560 682 579T663 610T626 626T575 633T503 634H480Q398 633 393 631Q388 629 386 623Q385 622 352 492L320 363H375Q378 363 398 363T426 364T448 367T472 374T489 386Q502 398 511 419T524 457T529 475Q532 480 548 480H560Q567 475 567 470Q567 467 536 339T502 207Q500 200 482 200H470Q463 206 463 212Q463 215 468 234T473 274Q473 303 453 310T364 317H309L277 190Q245 66 245 60Q245 46 334 46H359Q365 40 365 39T363 19Q359 6 353 0H336Q295 2 185 2Q120 2 86 2T48 1Z"></path></g><g data-mml-node="mo" transform="translate(749, 0)"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="mo" transform="translate(1138, 0)"><path data-c="B7" d="M78 250Q78 274 95 292T138 310Q162 310 180 294T199 251Q199 226 182 208T139 190T96 207T78 250Z"></path></g><g data-mml-node="mo" transform="translate(1416, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></svg></span></span>:</p><span style="cursor:pointer;" data-tool="mdnice編輯器"><section role="presentation" data-formula="\begin{aligned} \operatorname{AttnPool}(\bar{q}, k, v) &=\mathcal{F}\left(\sum{i} \operatorname{softmax}\left(\frac{\bar{q} k_{i}^{\top}}{C}\right) v_{i}\right) \ &=\sum_{i} \operatorname{softmax}\left(\frac{\bar{q} k_{i}^{\top}}{C}\right) \mathcal{F}\left(v_{i}\right), \ \bar{q}=\operatorname{Emb}{\mathrm{q}}(\bar{x}), k{i} &=\operatorname{Emb}{\mathrm{k}}\left(x{i}\right), v_{i}=\operatorname{Emb}{\mathrm{v}}\left(x{i}\right), \end{aligned}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -8.071ex;width: 46.686ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0If8h11MQHZEmmjGWBgxDxDHt8gpQbayX7Tx86JliboiaHKzyS1x5ibSgG3HEMkU0YKxL/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">其中 C 是一個(gè)常數(shù)比例因子贵涵,而 Emb(·) 表示一個(gè)線(xiàn)性嵌入層列肢。<span style="cursor:pointer;"><span role="presentation" data-formula="x_{i}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -442 866 599.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.959ex;height: 1.357ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="TeXAtom" transform="translate(572, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></g></svg></span></span>表示空間位置 i 的輸入特征恰画,<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{x}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 572 659" aria-hidden="true" style="vertical-align: -0.025ex;width: 1.294ex;height: 1.491ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="mo" transform="translate(63.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>是所有<span style="cursor:pointer;"><span role="presentation" data-formula="x_{i}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -442 866 599.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.959ex;height: 1.357ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="78" d="M52 289Q59 331 106 386T222 442Q257 442 286 424T329 379Q371 442 430 442Q467 442 494 420T522 361Q522 332 508 314T481 292T458 288Q439 288 427 299T415 328Q415 374 465 391Q454 404 425 404Q412 404 406 402Q368 386 350 336Q290 115 290 78Q290 50 306 38T341 26Q378 26 414 59T463 140Q466 150 469 151T485 153H489Q504 153 504 145Q504 144 502 134Q486 77 440 33T333 -11Q263 -11 227 52Q186 -10 133 -10H127Q78 -10 57 16T35 71Q35 103 54 123T99 143Q142 143 142 101Q142 81 130 66T107 46T94 41L91 40Q91 39 97 36T113 29T132 26Q168 26 194 71Q203 87 217 139T245 247T261 313Q266 340 266 352Q266 380 251 392T217 404Q177 404 142 372T93 290Q91 281 88 280T72 278H58Q52 284 52 289Z"></path></g><g data-mml-node="TeXAtom" transform="translate(572, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></g></svg></span></span>的平均值。 Transformer 層的輸出作為整個(gè)圖像的綜合表示瓷马。作者認(rèn)為這是可能的拴还,因?yàn)樵诿總€(gè)空間位置計(jì)算的<span style="cursor:pointer;"><span role="presentation" data-formula="\mathcal{F}\left(v_{i}\right)" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2386 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 5.398ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="46" d="M199 579Q181 579 181 590Q181 598 188 611T212 639T260 666T335 682Q336 682 349 682T383 682T431 682T493 683T561 683Q776 682 784 681Q826 673 829 647Q829 620 797 600T744 580Q728 580 728 595Q729 607 713 610Q698 613 598 614H500L499 610Q499 598 467 486T428 367Q428 365 551 365H674Q683 360 684 355Q687 346 677 329Q666 312 642 299T598 285Q586 285 582 296H402L394 277Q386 258 373 229T346 167T315 102T286 51Q265 22 225 -5T133 -32Q108 -32 87 -25T54 -7T33 15T21 35T18 47Q18 60 44 80T98 103Q108 103 111 101T119 88Q130 66 150 54T179 39T195 37Q199 37 203 43Q217 67 245 125T318 300T391 532Q393 543 398 564T406 598T409 613T339 614H269Q229 579 199 579Z"></path></g></g><g data-mml-node="mrow" transform="translate(829, 0)"><g data-mml-node="mo"><path data-c="28" d="M94 250Q94 319 104 381T127 488T164 576T202 643T244 695T277 729T302 750H315H319Q333 750 333 741Q333 738 316 720T275 667T226 581T184 443T167 250T184 58T225 -81T274 -167T316 -220T333 -241Q333 -250 318 -250H315H302L274 -226Q180 -141 137 -14T94 250Z"></path></g><g data-mml-node="msub" transform="translate(389, 0)"><g data-mml-node="mi"><path data-c="76" d="M173 380Q173 405 154 405Q130 405 104 376T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Q21 294 29 316T53 368T97 419T160 441Q202 441 225 417T249 361Q249 344 246 335Q246 329 231 291T200 202T182 113Q182 86 187 69Q200 26 250 26Q287 26 319 60T369 139T398 222T409 277Q409 300 401 317T383 343T365 361T357 383Q357 405 376 424T417 443Q436 443 451 425T467 367Q467 340 455 284T418 159T347 40T241 -11Q177 -11 139 22Q102 54 102 117Q102 148 110 181T151 298Q173 362 173 380Z"></path></g><g data-mml-node="TeXAtom" transform="translate(485, -150) scale(0.707)" data-mjx-texclass="ORD"><g data-mml-node="mi"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g><g data-mml-node="mo" transform="translate(1168, 0)"><path data-c="29" d="M60 749L64 750Q69 750 74 750H86L114 726Q208 641 251 514T294 250Q294 182 284 119T261 12T224 -76T186 -143T145 -194T113 -227T90 -246Q87 -249 86 -250H74Q66 -250 63 -250T58 -247T55 -238Q56 -237 66 -225Q221 -64 221 250T66 725Q56 737 55 738Q55 746 60 749Z"></path></g></g></g></g></svg></span></span>已經(jīng)捕獲了豐富的局部語(yǔ)義響應(yīng),這些響應(yīng)與 CLIP 文本嵌入中的標(biāo)記很好地對(duì)應(yīng)欧聘。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">基于這樣的假設(shè)片林,如上圖(b) 所示,作者在新嘗試中直接修改 CLIP 的圖像編碼器:(1) <strong>刪除查詢(xún)和關(guān)鍵嵌入層</strong>怀骤; (2) <strong>將值嵌入層和最后一個(gè)線(xiàn)性層重新組合成兩個(gè)各自的 1×1 卷積層</strong>费封。此外,保持文本編碼器不變蒋伦,它以目標(biāo)類(lèi)的提示作為輸入弓摘。每個(gè)類(lèi)的結(jié)果文本嵌入用作分類(lèi)器。作者將生成的模型命名為 MaskCLIP痕届,因?yàn)樗a(chǎn)生像素級(jí)掩碼預(yù)測(cè)韧献,而不是全局圖像級(jí)預(yù)測(cè)。然后爷抓,作者在各種標(biāo)準(zhǔn)分割基準(zhǔn)以及網(wǎng)絡(luò)爬取圖像上評(píng)估 MaskCLIP势决。MaskCLIP 無(wú)需任何微調(diào)或注釋即可輸出合理的結(jié)果。更多關(guān)于 mIoU 指標(biāo)的定性結(jié)果和定量結(jié)果包含在實(shí)驗(yàn)部分蓝撇。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">有人可能會(huì)爭(zhēng)辯說(shuō)果复,由于全局注意力池是一個(gè)自注意力層,即使沒(méi)有修改渤昌,它也可以生成密集的特征虽抄。然而,由于查詢(xún)<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span> 是在 CLIP 預(yù)訓(xùn)練期間訓(xùn)練的唯一查詢(xún)独柑,因此這種樸素的解決方案失敗了迈窟。作者將此解決方案視為基線(xiàn),并在實(shí)驗(yàn)中將其結(jié)果與本文的結(jié)果進(jìn)行比較忌栅。此外车酣,ViT 中的 Transformer 層與全局注意力池非常相似。實(shí)際上索绪,僅有的兩個(gè)區(qū)別是:(1)全局查詢(xún)是由一個(gè)特殊的 [CLS] ?token生成的湖员,而不是所有空間位置的平均值; (2) Transformer 層有殘差連接瑞驱。因此娘摔,通過(guò)用<span style="cursor:pointer;"><span role="presentation" data-formula="q[\mathrm{cls}]" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -750 2132 1000" aria-hidden="true" style="vertical-align: -0.566ex;width: 4.824ex;height: 2.262ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="mi"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(460, 0)"><path data-c="5B" d="M118 -250V750H255V710H158V-210H255V-250H118Z"></path></g><g data-mml-node="TeXAtom" data-mjx-texclass="ORD" transform="translate(738, 0)"><g data-mml-node="mi"><path data-c="63" d="M370 305T349 305T313 320T297 358Q297 381 312 396Q317 401 317 402T307 404Q281 408 258 408Q209 408 178 376Q131 329 131 219Q131 137 162 90Q203 29 272 29Q313 29 338 55T374 117Q376 125 379 127T395 129H409Q415 123 415 120Q415 116 411 104T395 71T366 33T318 2T249 -11Q163 -11 99 53T34 214Q34 318 99 383T250 448T370 421T404 357Q404 334 387 320Z"></path></g><g data-mml-node="mi" transform="translate(444, 0)"><path data-c="6C" d="M42 46H56Q95 46 103 60V68Q103 77 103 91T103 124T104 167T104 217T104 272T104 329Q104 366 104 407T104 482T104 542T103 586T103 603Q100 622 89 628T44 637H26V660Q26 683 28 683L38 684Q48 685 67 686T104 688Q121 689 141 690T171 693T182 694H185V379Q185 62 186 60Q190 52 198 49Q219 46 247 46H263V0H255L232 1Q209 2 183 2T145 3T107 3T57 1L34 0H26V46H42Z"></path></g><g data-mml-node="mi" transform="translate(722, 0)"><path data-c="73" d="M295 316Q295 356 268 385T190 414Q154 414 128 401Q98 382 98 349Q97 344 98 336T114 312T157 287Q175 282 201 278T245 269T277 256Q294 248 310 236T342 195T359 133Q359 71 321 31T198 -10H190Q138 -10 94 26L86 19L77 10Q71 4 65 -1L54 -11H46H42Q39 -11 33 -5V74V132Q33 153 35 157T45 162H54Q66 162 70 158T75 146T82 119T101 77Q136 26 198 26Q295 26 295 104Q295 133 277 151Q257 175 194 187T111 210Q75 227 54 256T33 318Q33 357 50 384T93 424T143 442T187 447H198Q238 447 268 432L283 424L292 431Q302 440 314 448H322H326Q329 448 335 442V310L329 304H301Q295 310 295 316Z"></path></g></g><g data-mml-node="mo" transform="translate(1854, 0)"><path data-c="5D" d="M22 710V750H159V-250H22V-210H119V710H22Z"></path></g></g></g></svg></span></span>替換<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>并將輸入 x 添加到輸出中,MaskCLIP 可以與 ViT 主干一起工作唤反。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">盡管與現(xiàn)有分割方法相比凳寺,MaskCLIP 很簡(jiǎn)單鸭津,但所提出的方法具有繼承自 CLIP 的多個(gè)獨(dú)特優(yōu)點(diǎn)。首先肠缨,<strong>MaskCLIP 可用作自由分割標(biāo)注器</strong>逆趋,為使用有限標(biāo)簽的分割方法提供豐富而新穎的監(jiān)督信號(hào)。其次怜瞒,<strong>由于在MaskCLIP中保留了CLIP的視覺(jué)語(yǔ)言關(guān)聯(lián)父泳,它自然具有分割開(kāi)放詞匯類(lèi)的能力</strong>,以及由自由形式的短語(yǔ)描述的細(xì)粒度類(lèi)吴汪,如白車(chē)和紅巴士惠窄。第三,<strong>由于 CLIP 是在原始網(wǎng)絡(luò)策劃圖像上訓(xùn)練的漾橙,因此 CLIP 對(duì)自然分布偏移和輸入損壞表現(xiàn)出極大的魯棒性</strong>杆融。作者驗(yàn)證 MaskCLIP 在一定程度上保留了這種魯棒性。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">為了進(jìn)一步提高 MaskCLIP 的性能霜运,作者提出了兩種細(xì)化策略脾歇,即<strong>鍵平滑</strong>和<strong>prompt去噪</strong>。除了<span style="cursor:pointer;"><span role="presentation" data-formula="\bar{q}" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -648 593.8 842" aria-hidden="true" style="vertical-align: -0.439ex;width: 1.343ex;height: 1.905ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="TeXAtom" data-mjx-texclass="ORD"><g data-mml-node="mover"><g data-mml-node="mi" transform="translate(20, 0)"><path data-c="71" d="M33 157Q33 258 109 349T280 441Q340 441 372 389Q373 390 377 395T388 406T404 418Q438 442 450 442Q454 442 457 439T460 434Q460 425 391 149Q320 -135 320 -139Q320 -147 365 -148H390Q396 -156 396 -157T393 -175Q389 -188 383 -194H370Q339 -192 262 -192Q234 -192 211 -192T174 -192T157 -193Q143 -193 143 -185Q143 -182 145 -170Q149 -154 152 -151T172 -148Q220 -148 230 -141Q238 -136 258 -53T279 32Q279 33 272 29Q224 -10 172 -10Q117 -10 75 30T33 157ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z"></path></g><g data-mml-node="mo" transform="translate(93.8, -42)"><path data-c="AF" d="M69 544V590H430V544H69Z"></path></g></g></g></g></g></svg></span></span>淘捡,關(guān)鍵特征<span style="cursor:pointer;"><span role="presentation" data-formula="k_i" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 815 851.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.844ex;height: 1.927ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="6B" d="M121 647Q121 657 125 670T137 683Q138 683 209 688T282 694Q294 694 294 686Q294 679 244 477Q194 279 194 272Q213 282 223 291Q247 309 292 354T362 415Q402 442 438 442Q468 442 485 423T503 369Q503 344 496 327T477 302T456 291T438 288Q418 288 406 299T394 328Q394 353 410 369T442 390L458 393Q446 405 434 405H430Q398 402 367 380T294 316T228 255Q230 254 243 252T267 246T293 238T320 224T342 206T359 180T365 147Q365 130 360 106T354 66Q354 26 381 26Q429 26 459 145Q461 153 479 153H483Q499 153 499 144Q499 139 496 130Q455 -11 378 -11Q333 -11 305 15T277 90Q277 108 280 121T283 145Q283 167 269 183T234 206T200 217T182 220H180Q168 178 159 139T145 81T136 44T129 20T122 7T111 -2Q98 -11 83 -11Q66 -11 57 -1T48 16Q48 26 85 176T158 471L195 616Q196 629 188 632T149 637H144Q134 637 131 637T124 640T121 647Z"></path></g><g data-mml-node="mi" transform="translate(521, -150) scale(0.707)"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></svg></span></span>也在CLIP預(yù)訓(xùn)練期間得到訓(xùn)練藕各。然而,在原始的 MaskCLIP 中焦除,<span style="cursor:pointer;"><span role="presentation" data-formula="k_i" data-formula-type="inline-equation" style=""><svg xmlns="http://www.w3.org/2000/svg" role="img" focusable="false" viewBox="0 -694 815 851.8" aria-hidden="true" style="vertical-align: -0.357ex;width: 1.844ex;height: 1.927ex;"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g data-mml-node="math"><g data-mml-node="msub"><g data-mml-node="mi"><path data-c="6B" d="M121 647Q121 657 125 670T137 683Q138 683 209 688T282 694Q294 694 294 686Q294 679 244 477Q194 279 194 272Q213 282 223 291Q247 309 292 354T362 415Q402 442 438 442Q468 442 485 423T503 369Q503 344 496 327T477 302T456 291T438 288Q418 288 406 299T394 328Q394 353 410 369T442 390L458 393Q446 405 434 405H430Q398 402 367 380T294 316T228 255Q230 254 243 252T267 246T293 238T320 224T342 206T359 180T365 147Q365 130 360 106T354 66Q354 26 381 26Q429 26 459 145Q461 153 479 153H483Q499 153 499 144Q499 139 496 130Q455 -11 378 -11Q333 -11 305 15T277 90Q277 108 280 121T283 145Q283 167 269 183T234 206T200 217T182 220H180Q168 178 159 139T145 81T136 44T129 20T122 7T111 -2Q98 -11 83 -11Q66 -11 57 -1T48 16Q48 26 85 176T158 471L195 616Q196 629 188 632T149 637H144Q134 637 131 637T124 640T121 647Z"></path></g><g data-mml-node="mi" transform="translate(521, -150) scale(0.707)"><path data-c="69" d="M184 600Q184 624 203 642T247 661Q265 661 277 649T290 619Q290 596 270 577T226 557Q211 557 198 567T184 600ZM21 287Q21 295 30 318T54 369T98 420T158 442Q197 442 223 419T250 357Q250 340 236 301T196 196T154 83Q149 61 149 51Q149 26 166 26Q175 26 185 29T208 43T235 78T260 137Q263 149 265 151T282 153Q302 153 302 143Q302 135 293 112T268 61T223 11T161 -11Q129 -11 102 10T74 74Q74 91 79 106T122 220Q160 321 166 341T173 380Q173 404 156 404H154Q124 404 99 371T61 287Q60 286 59 284T58 281T56 279T53 278T49 278T41 278H27Q21 284 21 287Z"></path></g></g></g></g></svg></span></span>是簡(jiǎn)單地丟棄激况。因此,作者在這里尋求利用這些信息來(lái)改進(jìn)最終輸出膘魄。鍵特征可以看作是對(duì)應(yīng)patch的描述符乌逐,因此具有相似鍵特征的patch應(yīng)該產(chǎn)生相似的預(yù)測(cè)。有了這個(gè)假設(shè)创葡,作者提出通過(guò)以下方式平滑預(yù)測(cè):</p><span style="cursor:pointer;" data-tool="mdnice編輯器"><section role="presentation" data-formula="\operatorname{pred}{i}=\sum{j} \cos \left(\frac{k_{i}}{\left|k_{i}\right|{2}}, \frac{k{j}}{\left|k_{j}\right|{2}}\right) \operatorname{pred}{i}
" data-formula-type="block-equation" style=" text-align: center;overflow: auto; "><embed style="vertical-align: -3.006ex;width: 36.683ex;height: auto;max-width: 300% !important;" src="https://mmbiz.qpic.cn/mmbiz_svg/nibxxlib1VaPdABZfndAF7pqBlAETFPv0IrzCpaa1bytxoLV0bB8fAZGoLiajn8O99D2vTBaprN1Ub3hz0LQ4nq2L1N8kztoq9L/0?wx_fmt=svg" data-type="svg+xml"></section></span><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">此外浙踢,作者還觀察到,在處理許多目標(biāo)類(lèi)別時(shí)灿渴,由于只有一小部分類(lèi)別出現(xiàn)在單個(gè)圖像中洛波,其余類(lèi)別實(shí)際上是干擾因素并破壞了性能。因此骚露,作者提出了提示去噪蹬挤,如果它在所有空間位置的類(lèi)置信度都小于閾值 t = 0.5,則刪除帶有目標(biāo)類(lèi)的提示荸百。</p><h2 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 22px;"><span style="display: none;"></span><span>3.4 MaskCLIP+</span><span></span></h2><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">雖然 MaskCLIP 不需要任何訓(xùn)練闻伶,但它的網(wǎng)絡(luò)架構(gòu)是剛性的滨攻,因?yàn)樗捎昧?CLIP 的圖像編碼器够话。為了從這種約束中放松它并受益于為分割量身定制的更先進(jìn)的架構(gòu)蓝翰,例如 DeepLab和 PSPNet,作者提出了 MaskCLIP+女嘲。 MaskCLIP+ 不是直接應(yīng)用 MaskCLIP 進(jìn)行測(cè)試時(shí)間預(yù)測(cè)畜份,而是將其預(yù)測(cè)視為訓(xùn)練時(shí)間偽真實(shí)標(biāo)簽。結(jié)合采用的自訓(xùn)練策略欣尼,MaskCLIP+ 不受其骨干架構(gòu)的限制爆雹。如上圖(a) 所示,作者將 DeepLabv2作為 MaskCLIP+ 的主干愕鼓,以確保與以前的分割方法進(jìn)行公平比較钙态。
在 MaskCLIP+ 中,作者利用 MaskCLIP 的預(yù)測(cè)來(lái)指導(dǎo)另一個(gè)目標(biāo)網(wǎng)絡(luò)的訓(xùn)練菇晃,該目標(biāo)網(wǎng)絡(luò)包含為分割任務(wù)量身定制的架構(gòu)册倒。與目標(biāo)網(wǎng)絡(luò)并行,作者將相同的預(yù)處理圖像輸入提供給 MaskCLIP磺送,并使用 MaskCLIP 的預(yù)測(cè)作為偽真實(shí)標(biāo)簽來(lái)訓(xùn)練目標(biāo)網(wǎng)絡(luò)驻子。此外,作者將目標(biāo)網(wǎng)絡(luò)的分類(lèi)器替換為 MaskCLIP 的分類(lèi)器估灿,以保留網(wǎng)絡(luò)對(duì)開(kāi)放詞匯預(yù)測(cè)的能力崇呵。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">MaskCLIP 引導(dǎo)學(xué)習(xí)也適用于零樣本分割設(shè)置。具體來(lái)說(shuō)馅袁,雖然觀察到可見(jiàn)和不可見(jiàn)類(lèi)的像素域慷,但只有可見(jiàn)類(lèi)的注釋可用。在這種情況下司顿,只使用 MaskCLIP 為未標(biāo)記的像素生成偽標(biāo)簽芒粹。與 SOTA 方法相比,MaskCLIP+ 在三個(gè)標(biāo)準(zhǔn)基準(zhǔn)(即 PASCAL VOC 2012大溜、PASCAL Context 和 COCO Stuff)中獲得了顯著更好的結(jié)果化漆,其中 MaskCLIP+ 的結(jié)果甚至與完全-監(jiān)督基線(xiàn)。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">作者注意到一些相關(guān)的嘗試钦奋,針對(duì)目標(biāo)檢測(cè)座云,在 CLIP 的圖像級(jí)視覺(jué)特征和目標(biāo)模型的特征之間進(jìn)行知識(shí)蒸餾。與這樣的特征級(jí)指導(dǎo)不同付材,作者在本文中采用偽標(biāo)簽朦拖。這是因?yàn)楸疚牡哪繕?biāo)網(wǎng)絡(luò)具有分段定制的架構(gòu),在結(jié)構(gòu)上與 CLIP 的圖像編碼器不同厌衔。因此璧帝,通過(guò)特征匹配進(jìn)行蒸餾可能是一種次優(yōu)策略。事實(shí)上富寿,在零樣本設(shè)置下睬隶,這種特征級(jí)指導(dǎo)確實(shí)會(huì)導(dǎo)致可見(jiàn)類(lèi)和不可見(jiàn)類(lèi)的性能之間存在沖突锣夹。相反,通過(guò)在 MaskCLIP+ 中采用偽標(biāo)簽苏潜,作者沒(méi)有觀察到所見(jiàn)類(lèi)的任何性能下降银萍。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>4.實(shí)驗(yàn)</span><span></span></h1><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.8142414860681114" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJ25tVuBewZibEsicodFiaHhSPAx5gQ4yI4Adukbu3VM7ZXODMXaMllNJdQ/640?wx_fmt=png" data-type="png" data-w="969" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="4" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-043408cdb67fac0c.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">上表展示了無(wú)標(biāo)注分割的實(shí)驗(yàn)結(jié)果。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7056367432150313" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJFvibm0Ngtcr7VKTlZOWu215Po4ZdNRJOHibf6uLJu6Rk4nSfzX0wYMTQ/640?wx_fmt=png" data-type="png" data-w="958" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="5" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-17cab5338474ea3e.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">PASCAL上的定性實(shí)驗(yàn)結(jié)果恤左。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.5485714285714286" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJPyNqnJxcTorpGkib7JAnWsiaiaUmDtGOsOOslqh6wOUn950Xcw40ibB8DA/640?wx_fmt=png" data-type="png" data-w="1050" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="6" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-2a98c88ac4793a3d.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">網(wǎng)絡(luò)圖片上的定性結(jié)果贴唇。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7692307692307693" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJBdoIe0ru7QYApRj1znAoulURw7yBEYZjMDEGS57TU1bLDdIS29TGZA/640?wx_fmt=png" data-type="png" data-w="949" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="7" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-fee9b3d87bc9fe9c.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">零樣本分割性能。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.2677165354330709" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJ2qDev1mmz4uqFg6Liakqviaev6dW8unS38zxQzFXibJkCWThCicPTjm80Q/640?wx_fmt=png" data-type="png" data-w="1016" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="8" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-71e5c1e96a72ac79.png" data-fail="0"></figure><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">MaskCLIP+的消融飞袋。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>5. 總結(jié)</span><span></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">本文介紹了作者在語(yǔ)義分割中應(yīng)用 CLIP 的探索戳气,作為研究預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型在像素級(jí)密集預(yù)測(cè)任務(wù)中的適用性的早期嘗試。雖然傳統(tǒng)的微調(diào)范式無(wú)法從 CLIP 中受益巧鸭,但作者發(fā)現(xiàn) CLIP 的圖像編碼器已經(jīng)具備直接作為分割模型工作的能力物咳。由此產(chǎn)生的模型,稱(chēng)為 MaskCLIP蹄皱,可以很容易地部署在各種語(yǔ)義分割設(shè)置上览闰,而無(wú)需重新訓(xùn)練。在 MaskCLIP 的成功之上巷折,作者進(jìn)一步提出了 MaskCLIP+压鉴,它利用 MaskCLIP 為未標(biāo)記的像素提供訓(xùn)練時(shí)間偽標(biāo)簽,因此可以應(yīng)用于更多的分割定制架構(gòu)锻拘,而不僅僅是 CLIP 的圖像編碼器油吭。在標(biāo)準(zhǔn)的換能零樣本分割基準(zhǔn)上,MaskCLIP+ 顯著改進(jìn)了之前的 SOTA 結(jié)果署拟。更重要的是婉宰,MaskCLIP+ 可以很容易地用于分割更具挑戰(zhàn)性的看不見(jiàn)的類(lèi)別,例如名人和動(dòng)畫(huà)角色推穷。</p><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>【技術(shù)交流】</span><span></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">已建立深度學(xué)習(xí)公眾號(hào)——<em><strong>FightingCV</strong></em>心包,關(guān)注于最新論文解讀、基礎(chǔ)知識(shí)鞏固馒铃、學(xué)術(shù)科研交流蟹腾,歡迎大家關(guān)注!G睢娃殖!</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">請(qǐng)關(guān)注<em><strong>FightingCV</strong></em>公眾號(hào),并后臺(tái)回復(fù)<strong>ECCV2022</strong>即可獲得ECCV中稿論文匯總列表议谷。</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">推薦加入FightingCV<strong>交流群</strong>炉爆,每日會(huì)發(fā)送論文解析、算法和代碼的干貨分享,進(jìn)行學(xué)術(shù)交流芬首,加群請(qǐng)?zhí)砑有≈謜x:<strong>FightngCV666</strong>鲫凶,備注:<em><strong>地區(qū)-學(xué)校(公司)-名稱(chēng)</strong></em></p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的頂會(huì)論文核心代碼庫(kù):</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/xmu-xiaoma666/External-Attention-pytorch</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[3]</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的YOLO目標(biāo)檢測(cè)庫(kù):</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/iscyy/yoloair</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[4]</p><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;"><strong>面向小白的頂刊頂會(huì)的論文解析:</strong><span style="color: #1e6bb8;font-weight: bold;">https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading</span><sup style="line-height: 0;color: #1e6bb8;font-weight: bold;">[5]</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="0.7062256809338522" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJaTJ0XYicThj41t4T5TDsMbSFbnkZiarsIobpibsUKo2tdMA8deJBWWJMQ/640?wx_fmt=png" data-type="png" data-w="514" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 514px !important;" data-index="9" data-origin-display="block" _width="514px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-a17a4ffbce56a5b6.png" data-fail="0"></figure><h1 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 24px;"><span style="display: none;"></span><span>【贈(zèng)書(shū)活動(dòng)】</span><span></span></h1><p data-tool="mdnice編輯器" style="padding-top: 8px;padding-bottom: 8px;line-height: 26px;">為感謝各位老粉和新粉的支持,<strong>FightingCV公眾號(hào)</strong>將在9月10日包郵送出4本<strong>《深度學(xué)習(xí)與目標(biāo)檢測(cè):工具衩辟、原理與算法》</strong>來(lái)幫助大家學(xué)習(xí),贈(zèng)書(shū)對(duì)象為當(dāng)日閱讀榜和分享榜前兩名波附。想要參與贈(zèng)書(shū)活動(dòng)的朋友艺晴,請(qǐng)?zhí)砑有≈治⑿?lt;strong>FightngCV666</strong>(備注“城市-方向-ID”),方便聯(lián)系獲得郵寄地址掸屡。</p><figure data-tool="mdnice編輯器" style="margin-top: 10px;margin-bottom: 10px;display: flex;flex-direction: column;justify-content: center;align-items: center;"><img class="rich_pages wxw-img" data-ratio="1" data-src="https://mmbiz.qpic.cn/mmbiz_png/a4fkjObn6QAEUc0uz6NdViaBzWZoT7dpJCHTx8micgxJBW7XFScRfvl9bD03P5nXvtI1j27Z1kGpVPDQsn1W1PnQ/640?wx_fmt=png" data-type="png" data-w="1080" style="display: block; margin-right: auto; margin-left: auto; visibility: visible !important; height: auto !important; width: 677px !important;" data-index="10" data-origin-display="block" _width="677px" crossorigin="anonymous" alt="Image" src="https://upload-images.jianshu.io/upload_images/11486041-2ce35bdb8b0684f1.png" data-fail="0"></figure><h3 data-tool="mdnice編輯器" style="margin-top: 30px;margin-bottom: 15px;font-weight: bold;font-size: 20px;"><span style="display: block;">參考資料</span></h3><section data-tool="mdnice編輯器"><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[1] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://arxiv.org/abs/2112.01071: <em>https://arxiv.org/abs/2112.01071</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[2] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/chongzhou96/MaskCLIP: <em>https://github.com/chongzhou96/MaskCLIP</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[3] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/xmu-xiaoma666/External-Attention-pytorch: <em>https://github.com/xmu-xiaoma666/External-Attention-pytorch</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[4] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/iscyy/yoloair: <em>https://github.com/iscyy/yoloair</em></p></span><span style="display: flex;"><span style="display: inline;width: 10%;background-image: none;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;font-size: 80%;opacity: 0.6;line-height: 26px;font-family: ptima-Regular, Optima, PingFangSC-light, PingFangTC-light, "PingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;">[5] </span><p style="display: inline;font-size: 14px;width: 90%;line-height: 26px;word-break: break-all;">https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading: <em>https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading</em></p></span></section></section><blockquote><p>本文使用 <a href="http://www.reibang.com/p/5709df6fb58d" class="internal">文章同步助手</a> 同步</p></blockquote>
ECCV2022 Oral | MaskCLIP
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
- 文/潘曉璐 我一進(jìn)店門(mén)磅废,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人荆烈,你說(shuō)我怎么就攤上這事拯勉。” “怎么了憔购?”我有些...
- 文/不壞的土叔 我叫張陵宫峦,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我玫鸟,道長(zhǎng)导绷,這世上最難降的妖魔是什么? 我笑而不...
- 正文 為了忘掉前任屎飘,我火速辦了婚禮诵次,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘枚碗。我一直安慰自己逾一,他們只是感情好,可當(dāng)我...
- 文/花漫 我一把揭開(kāi)白布肮雨。 她就那樣靜靜地躺著遵堵,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上陌宿,一...
- 那天锡足,我揣著相機(jī)與錄音,去河邊找鬼壳坪。 笑死舶得,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的爽蝴。 我是一名探鬼主播沐批,決...
- 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蝎亚!你這毒婦竟也來(lái)了九孩?” 一聲冷哼從身側(cè)響起,我...
- 序言:老撾萬(wàn)榮一對(duì)情侶失蹤发框,失蹤者是張志新(化名)和其女友劉穎躺彬,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體梅惯,經(jīng)...
- 正文 獨(dú)居荒郊野嶺守林人離奇死亡宪拥,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
- 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了铣减。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片江解。...
- 正文 年R本政府宣布桨螺,位于F島的核電站,受9級(jí)特大地震影響酿秸,放射性物質(zhì)發(fā)生泄漏灭翔。R本人自食惡果不足惜,卻給世界環(huán)境...
- 文/蒙蒙 一辣苏、第九天 我趴在偏房一處隱蔽的房頂上張望肝箱。 院中可真熱鬧,春花似錦稀蟋、人聲如沸煌张。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)骏融。三九已至链嘀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間档玻,已是汗流浹背怀泊。 一陣腳步聲響...
- 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像凉当,于是被迫代替她去往敵國(guó)和親枣申。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
推薦閱讀更多精彩內(nèi)容
- 174道JavaScript 面試知識(shí)點(diǎn)總結(jié)(下) 文章有許多金典閱讀推薦建議點(diǎn)贊加收藏 圖片 來(lái)源 | http...
- 你覺(jué)得js是一門(mén)怎樣的語(yǔ)言纤怒,它與你學(xué)過(guò)的其他語(yǔ)言有什么不同 變量類(lèi)型 js如何判斷變量數(shù)據(jù)類(lèi)型 dom節(jié)點(diǎn)獲取,及...
- CSS CSS3 布局屬性 標(biāo)簽的權(quán)值為1天通,類(lèi)選擇符的權(quán)值為10泊窘,ID選擇符的權(quán)值最高為100 !importan...
- Canvas[https://developer.mozilla.org/zh-CN/docs/Web/API/C...
- 一:canvas簡(jiǎn)介 1.1什么是canvas? ①:canvas是HTML5提供的一種新標(biāo)簽 ②:HTML5 ...