- 2019.1.26
SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
優(yōu)化圖卷積怜械,通過切比雪夫多項(xiàng)式近似卧土,不需要做特征分解和矩陣乘法屉来,降低復(fù)雜度。 - 2019.1.27
DPN
兩個(gè)支路,一個(gè)resnet,一個(gè)densenet。
DenseNet
所有層之間密集連接碗脊,相當(dāng)于增加網(wǎng)絡(luò)的寬度,還便于反傳梯度橄妆。
Large kernel matters
解決語義分割中classification和localization難以同時(shí)滿足的問題衙伶,通過:1)不使用pooling等破壞局部信息的操作祈坠; 2)使用large kernel擴(kuò)大視野域。 - 2019.1.28
Attention is all you need
只用self-attention矢劲,避開cnn和rnn的模塊赦拘,對(duì)輸入進(jìn)行特征提取。好處是可以并行對(duì)序列數(shù)據(jù)進(jìn)行特征提取芬沉,利用multi-head attention模塊達(dá)到了并行性躺同。有效證明不通過卷積或rnn模塊,只使用self-attention丸逸,一樣可以利用attention對(duì)空間信息進(jìn)行提取和融合蹋艺。
2019.2.19 今天突然明白了文中的Q,K黄刚,V是什么意思捎谨。attention可以看成一個(gè)檢索過程。信息以key-value的形式存放起來隘击,檢索時(shí)用query跟key進(jìn)行匹配,匹配成功得到key對(duì)應(yīng)的value研铆。匹配時(shí)采用相似度進(jìn)行度量埋同,K和Q越接近,得到value的權(quán)重越大棵红。因此凶赁,比如說從中文翻譯到英文,那么K就是中文逆甜,Q就是英文虱肄,計(jì)算每個(gè)漢字對(duì)英文的attention,也就是計(jì)算Q和K的相似度交煞,歸一化后得到attention(看成一種權(quán)重)咏窿,用attention對(duì)整個(gè)中文句子進(jìn)行加權(quán),則V也是中文句子素征,在這里集嵌,K和V對(duì)應(yīng)的是同一個(gè)對(duì)象。這就是下面這張圖的含義御毅。
- 2019.1.31
Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
關(guān)注zero-shot識(shí)別根欧,利用GCN的方法比較另類,可能是受nlp中entity classification的啟發(fā)端蛆,并且凤粗,GCN被用于做semi-supervised分類,而zero-shot恰好屬于semi-supervised今豆。GCN每個(gè)node代表一個(gè)category嫌拣,輸入是每個(gè)category的word embedding柔袁,輸出是每個(gè)category的分類器(應(yīng)該是一個(gè)D維單層感知機(jī))。顯式利用knowledge graph亭罪,有關(guān)系的category之間連一條無向邊瘦馍。
Non-local - 2019.2.1
2019年進(jìn)度條已經(jīng)走了1/12了,異常緊張应役。情组。。
Videos as Space-Time Region Graphs
這篇將gcn運(yùn)用到視頻分類上箩祥。啟發(fā)應(yīng)該是relation預(yù)測院崇,套路也很像,先用rpn生成proposals袍祖,做ROI align后max pooling成1x1xd大小的特征底瓣,作為圖卷積的輸入。處理特征使用了3D卷積核蕉陋,這個(gè)還沒有詳細(xì)了解過捐凭。圖的鄰接矩陣編碼方式是基于圖本身內(nèi)容的,1)similarity relation凳鬓,計(jì)算每兩個(gè)node之間的相似度茁肠,將相似度矩陣作為圖的鄰接矩陣,這個(gè)是編碼了同一(盡量吧)object的狀態(tài)變化以及object之間的長時(shí)依賴關(guān)系缩举;2)spacial & temporal relation垦梆,計(jì)算相鄰兩幀每兩個(gè)node對(duì)應(yīng)bbox的iou,iou作為鄰接矩陣值仅孩,這個(gè)編碼了object在相鄰空間和時(shí)間上的關(guān)系托猩。最后不同的子圖輸出相加作為圖卷積最終輸出。
屬于non-local的后續(xù)辽慕,文中也比較了non-local和similarity graph京腥,基本上similarity graph添加一個(gè)residual connection就是non-local了〗︱龋總算知道為什么要搞shortcut了绞旅。。温艇。不過直接將圖卷積運(yùn)用在視頻上因悲,是跳過了圖片嗎。勺爱。晃琳。 - 2019.2.4
感冒高燒了兩天,掛了一天水吃了好幾包退燒藥終于緩過來了,然而還是瘋狂咳嗽卫旱,慢慢痊愈吧人灼。。顾翼。
今日論文:
Squeeze-and-excitation networks
這篇文章做的是通道的attention投放,目的是在cnn的視野域限制下,在淺層就獲得全局的context信息适贸。具體做法為灸芳,對(duì)每一層的特征做一次通道內(nèi)的global pooling,隨后接一個(gè)類似于bottleneck的全連接層拜姿,然后對(duì)原特征的每個(gè)通道做增強(qiáng)(或抑制)烙样。所以,大概的想法就是蕊肥,有的通道比較重要谒获,就用一個(gè)大的數(shù)增強(qiáng),有的通道不重要壁却,就用一個(gè)小的數(shù)抑制批狱。 - 2019.2.5
今天又開始發(fā)燒了,早知道昨天就去再掛一天水了展东,還瘋狂咳嗽赔硫,,琅锻,卦停,向胡,恼蓬,,昨天的論文沒看完僵芹,挪到今天看了处硬,菜狗
Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks
這篇論文是延續(xù)SENet的工作的,也是希望在淺層就獲取全局的context信息拇派。不同的是荷辕,上一篇直接在每個(gè)通道的特征得到一個(gè)值,這篇嘗試獲取的是一個(gè)張量件豌。文中公式寫的很復(fù)雜疮方,看不明白,大概意思應(yīng)該是定義一個(gè)extent ratio e茧彤,將原來的特征圖縮小到之前的1/e骡显,縮小的方法有無參數(shù)的average pooling,以及有參數(shù)的strided depth-wise convolution。得到縮小的特征圖后惫谤,將其進(jìn)行最近鄰插值上采樣到跟原來一樣大壁顶,與原特征進(jìn)行逐元素相乘(Hadamard product)。最后實(shí)驗(yàn)驗(yàn)證了不同大小的e溜歪,發(fā)現(xiàn)還是global的尺寸效果最好若专。 - 2019.2.8
Graph U-Net
這篇文章好像是被拒了,不過老板讓看就看看了蝴猪。主要是定義了graph的pooling和unpooling操作调衰,從而可以在graph上定義類似U-Net的encoder-decoder結(jié)構(gòu),可以用于每個(gè)元素的分類任務(wù)(不過原本gcn就是可以做每個(gè)元素分類的拯腮,不知道這么搞有什么特殊的含義)窖式。pooling操作實(shí)際上是對(duì)圖進(jìn)行重采樣,保留最重要的一部分node动壤,將每個(gè)node的特征投影到一個(gè)可學(xué)習(xí)向量p上萝喘,選擇分量最大的k個(gè)node組成新的圖,這個(gè)可以類比max-pooling琼懊,但是它沒有鄰域的定義阁簸,只是選擇了全局最重要的k個(gè)node。unpooling操作就是一個(gè)回填的過程哼丈,沒有的統(tǒng)統(tǒng)補(bǔ)0启妹。實(shí)驗(yàn)結(jié)果顯示這么搞一個(gè)u-net結(jié)構(gòu)做分類,確實(shí)比之前提升了不少醉旦。
個(gè)人對(duì)這個(gè)方法保留看法饶米,雖然這么做確實(shí)提升了精度,在類比cnn做pixel分類上也能講的通车胡。但cnn中進(jìn)行pooling是為了擴(kuò)大視野域檬输,而在這種pooling操作下,gcn是無法擴(kuò)大視野域的匈棘,因其采樣并非局部性的丧慈,并且,多進(jìn)行幾次特征傳播主卫,gcn的視野域就可以擴(kuò)大到k階相鄰的node逃默。而這種操作的unpooling操作,次數(shù)越多簇搅,會(huì)使得decode之后的graph全0的節(jié)點(diǎn)數(shù)目越多完域,肯定會(huì)喪失很多的信息。 - 2019.2.9
Convolutional 2D Knowledge Graph Embeddings
想了解一下knowledge graph瘩将,就讀了一篇相關(guān)的吟税,本來以為是用gcn做的关噪,其實(shí)不是。
kg研究的對(duì)象就是很多個(gè)三元組乌妙,<s, r, o>使兔,由于graph很大,容易缺失關(guān)系藤韵,kg做的任務(wù)就是預(yù)測缺失的關(guān)系虐沥,即預(yù)測一個(gè)p(s, r, o)。通常做法是neural link predictor泽艘,獲取s和o的embedding欲险,將其作為關(guān)系r對(duì)應(yīng)函數(shù),即score function的兩個(gè)輸入匹涮,輸出p天试。本文的方法就是屬于這一類,不過是把二維卷積用到了score function中然低,方法相當(dāng)簡單喜每,據(jù)說參數(shù)也并不多,可以用到大規(guī)模圖中雳攘。
其實(shí)kownledge graph研究的也是relation带兜,不過relation是cv領(lǐng)域,kg是nlp領(lǐng)域吨灭,relation研究的是一張圖刚照,kg研究的是一個(gè)超級(jí)大的網(wǎng)絡(luò),二者在規(guī)模上還是有一些差異喧兄。relation應(yīng)該也可以從kg中借鑒不少東西无畔。 - 2019.2.13
OCNet: Object Context Network for Scene Parsing
這篇文章是在場景分割任務(wù)中引入了self-attention。按照作者所說吠冤,PSPNet浑彰,ASPP都是試圖從context角度提升分割性能的,然而由于PSPNet的global pooling其實(shí)是基于局部的咨演,比如將某個(gè)像素所屬的4*4的區(qū)域認(rèn)為成是同一個(gè)object的闸昨,這是不科學(xué)的蚯斯,因此提升有限薄风。文中提出了object context,將所有屬于同一個(gè)object的pixel都當(dāng)做一個(gè)像素所屬的context拍嵌,用這個(gè)context來對(duì)這個(gè)像素做特征增強(qiáng)遭赂。具體做法是求了一個(gè)所有像素的similarity map,然后用它來增強(qiáng)特征横辆。其實(shí)還是一個(gè)non-local的應(yīng)用撇他,首先計(jì)算特征間的距離,雖然說得是object context,但實(shí)際上還是global context困肩,就是直接用了non-local的做法划纽。因此,感覺在方法上沒有很大的創(chuàng)新锌畸,可能只是在分割領(lǐng)域提出了一種新的解釋勇劣。 - 2019.2.19
Residual Attention Network for Image Classification
這篇論文是比較早的將attention模塊插入到圖像分類中的文章。attention類型也屬于SENet這一類scale-attention潭枣,將特征圖通過max-pooling下采樣后再上采樣放大到原來的尺寸比默,從而起到增強(qiáng)重要的內(nèi)容侵状,抑制不重要的內(nèi)容的作用汤求。區(qū)別是整個(gè)網(wǎng)絡(luò)只用了三次attention煌抒,本文的attention跨越了很多層问窃,尺度要更大鲁纠,并且澡屡,這里的attention是當(dāng)成殘差加到原來的主干上的贱纠,而GENet是直接在原特征上進(jìn)行操作耳峦。 - 2019.2.20
CBAM: Convolutional Block Attention Module
這篇文章是直接將SENet的想法同時(shí)在channel和spatial上進(jìn)行伊佃,channel上的attention就是SENet钝域,spatial上的attention也是一樣的先做channel pooling再上采樣成一張attention map,再乘到channel attention增強(qiáng)后的特征上锭魔。唯一的一點(diǎn)改進(jìn)就是同時(shí)用了max-pooling和avg-pooling例证,而SENet里只用了avg-pooling。文章還探索了其他結(jié)構(gòu)迷捧,如兩個(gè)attention支路并行织咧,或者兩個(gè)交換一下順序,發(fā)現(xiàn)還是串行漠秋,channel在前效果最好笙蒙。
從明天起,這篇文章就不會(huì)再更新啦庆锦,我開學(xué)了捅位。。搂抒。艇搀。。