LearnFromPapers系列——標(biāo)簽增強(qiáng)技術(shù)(Label Enhancement)
<center>作者:郭必?fù)P</center>
<center>時間:2020.12.29</center>
前言:我們習(xí)慣于使用one-hot標(biāo)簽來進(jìn)行模型的訓(xùn)練,但是有沒有辦法可以構(gòu)造出更好的標(biāo)簽?zāi)毓硬撸勘疚闹饕鶕?jù)東南大學(xué)的論文“Label Enhancement for Label Distribution Learning”進(jìn)行解讀和整理嘲恍,從而認(rèn)識并理解在分類問題中“標(biāo)簽增強(qiáng)”技術(shù)斑唬。
- 論文標(biāo)題:Label Enhancement for Label Distribution Learning
- 會議/期刊:IJCAI-18
- 團(tuán)隊(duì):東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院
標(biāo)簽分布 & 標(biāo)簽分布學(xué)習(xí)
標(biāo)簽分布學(xué)習(xí)(Label Distribution Learning第煮,LDL)的任務(wù)是讓模型去學(xué)習(xí)一個樣本的標(biāo)簽分布(Label Distribution)健爬,即每一個維度都反映對應(yīng)標(biāo)簽程度的一種概率分布佩耳。這樣的標(biāo)簽概率分布可以比one-hot更好地表示一個樣本的情況砂竖,原因主要有以下:
- 一個標(biāo)簽跟樣本是否有關(guān)真椿,是一個相對的概念,即沒有一個“判斷是否相關(guān)”的絕對標(biāo)準(zhǔn)晦溪;
- 當(dāng)多個標(biāo)簽都跟樣本相關(guān)時瀑粥,它們的相關(guān)程度一般也是不同的;
- 多個跟樣本不相關(guān)的標(biāo)簽三圆,它們的不相關(guān)程度也一般是不同的狞换。
論文作者給出了幾個生動的例子:
然而,LDL任務(wù)的主要困難之一就是舟肉,標(biāo)簽分布是十分難以獲取的修噪。大多數(shù)的分類數(shù)據(jù)集都不具備這樣的條件,都只有一些ligical label路媚。所謂logical label黄琼,就是指one-hot或者multi-one-hot的label。要獲取真實(shí)的標(biāo)簽分布整慎,理論上是需要對同一樣本進(jìn)行大量的打標(biāo)脏款,得到其統(tǒng)計(jì)分布的,但這背后的人工成本是無法承受的裤园。
主要思想
一個自然的解決辦法就是撤师,既然無法從外部得到樣本的標(biāo)簽分布,那就使用樣本集自身的特征空間來構(gòu)造出這樣的標(biāo)簽分布拧揽。
本文把這一類的方法稱為label Enhancement(LE)剃盾,并介紹了幾種LE的方法腺占,下面分別作簡單的介紹。
幾種經(jīng)典的LE方法
1. Fuzzy C-Means(FCM)
Fuzzy C-Means 是一個代表性的“軟聚類”算法(soft clustering)痒谴。它實(shí)際上是對K-Means這種“硬聚類”算法的一種改進(jìn)衰伯。K-means聚類只能將一個點(diǎn)劃分到一個簇里,而FCM則可以給出一個點(diǎn)歸屬于各個簇的概率分布积蔚。
FCM的目標(biāo)函數(shù)為:
其中是樣本點(diǎn)的特征向量意鲸,
是簇中心的特征向量,
是每個點(diǎn)歸屬于每個簇的系數(shù)尽爆,
類別數(shù)临扮,
是樣本總數(shù)。
的計(jì)算公式如下教翩,顯然離某個簇越近,其系數(shù)就越大:
而簇中心的計(jì)算方法為贪壳,就是所有樣本點(diǎn)特征的一個加權(quán)平均饱亿,其中m是超參數(shù),控制fuzzy的程度闰靴,越大簇之間就越模糊:
通過FCM算法彪笼,如果設(shè)置k個簇,樣本的簇概率分布就是
這個c維向量蚂且。
然后配猫,構(gòu)造一個分類類別(classes)與聚類簇(clusters)之間的一個軟連接矩陣k×c的矩陣A:
即A的第j行(代表第j個類別),是由所有屬于該類別的樣本的簇分布累加而得到的杏死。
最后泵肄,通過矩陣A與點(diǎn)乘,就可以將每個樣本的簇分布(c個簇)淑翼,轉(zhuǎn)化為標(biāo)簽分布(k個標(biāo)簽)了腐巢。
上面的過程,可以通過下圖來表達(dá):
2.Label Propagation(LP)
LP的主要思想是通過樣本之間的相似度矩陣玄括,來逐步調(diào)整原本的logical label representation冯丙。
第一步,通過下面的公式遭京,計(jì)算N個樣本之間的一個N×N的相似性矩陣A:
然后胃惜,根據(jù)下面的公式,構(gòu)建label propagation matrix哪雕,即標(biāo)簽傳導(dǎo)矩陣P:
看到這個公式船殉,熟悉GCN的人會發(fā)現(xiàn),這不就是拉普拉斯矩陣嘛热监,目的主要是為了讓原本的A矩陣歸一化和對稱捺弦。圖神經(jīng)網(wǎng)絡(luò)的核心,也是鄰居節(jié)點(diǎn)之間的互相傳播,跟這里的相似樣本之間列吼,進(jìn)行標(biāo)簽信息的傳播是類似的思想幽崩。
有了這個P傳播矩陣,就可以來通過“傳播”來構(gòu)造標(biāo)簽分布D了:
其中L是原本的one-hot的logical label矩陣寞钥,D使用L來初始化慌申。
通過不斷迭代上式,就可以得到一個趨于穩(wěn)定的標(biāo)簽分布矩陣D了理郑。
還是照例畫一個圖:
3.Mainifold Learning(LM)
除了LP之外蹄溉,還有一個Mainifold Learning(LM),主要思想就是假設(shè)一個樣本點(diǎn)的特征您炉,可以完全由其相鄰點(diǎn)的特征線性表示柒爵。所謂相鄰點(diǎn),就是通過KNN得到的最近鄰赚爵。
所以第一步就是優(yōu)化下面的目標(biāo):
學(xué)習(xí)出相似節(jié)點(diǎn)之間的互相表示的方法棉胀,即某個點(diǎn)是如何被其他的鄰近點(diǎn)所線性表示的。
然后冀膝,再去優(yōu)化這個目標(biāo)唁奢,得到標(biāo)簽分布:
以上是三種傳統(tǒng)的Label Enhancement方法。雖然傳統(tǒng)窝剖,但是其思想我覺得我覺得都挺有意思的麻掸,由其是FCM和LP方法。
本文提出的新方法:GLLE
GLLE全稱為Graph Laplacian Label Enhancement赐纱。也是一種基于圖的思想的方法脊奋。
別看這個名字這么復(fù)雜,其實(shí)其思想很簡單:
在訓(xùn)練標(biāo)簽預(yù)測模型的同時千所,也考慮學(xué)習(xí)標(biāo)簽間的相似性狂魔。
假設(shè)我們的預(yù)測模型是這樣的:
這里的d淫痰,就是要學(xué)習(xí)的標(biāo)簽分布最楷,W就是這個預(yù)測模型的參數(shù)。
根據(jù)前面提到的思想待错,作者設(shè)計(jì)的目標(biāo)函數(shù)是這樣的籽孙,由兩部分組成:
前一個部分,就是一個普通的MSE損失函數(shù)或最小二乘損失:
如果只優(yōu)化這個目標(biāo)火俄,那么得到的就是一個傾向于one-hot/logical label的預(yù)測模型犯建。
第二部分,希望相似的樣本其分布也相似:
其中這里的a是表達(dá)樣本i和j之間的相似系數(shù)瓜客,公式如下:
可以發(fā)現(xiàn)适瓦,這里計(jì)算相似性的方法竿开,跟Label Propagation十分相似,只是多了一個“僅在最近鄰范圍內(nèi)計(jì)算相似度”這樣的限制玻熙,因此作者稱之為“l(fā)ocal similarity matrix”否彩。
后面作者當(dāng)然扯了一大堆這個目標(biāo)怎么求解這個優(yōu)化問題巴拉巴拉,我是不太懂的嗦随,感覺是可以使用梯度下降法來求的列荔。
總之,可以看出這是一個有兩個目標(biāo)的優(yōu)化問題枚尼,通過一個λ參數(shù)控制二者的比例贴浙,同時優(yōu)化兩個方面,雖然兩個方向上都不會最優(yōu)署恍,但是可以兼顧兩個方面的效果崎溃,即最后得到的label distribution(LD)既逼近logical label,同時相似樣本之間的LD也是類似的盯质。
各個方法結(jié)果對比:
作者主要使用了兩種方法進(jìn)行效果對比:
- 從logical label恢復(fù)到原本的label distribution的水平
- 利用得到的label distribution來訓(xùn)練LDL模型看預(yù)測效果
對于恢復(fù)效果笨奠,有一個自制三維數(shù)據(jù)集的可視化:
可以看出,GLLE和LP都比較接近ground truth了唤殴。
另外在其他數(shù)據(jù)集上,作者通過計(jì)算相似度來衡量使用各個LE方法來進(jìn)行模型訓(xùn)練的效果:
還有一個平均排名:
看完了這些實(shí)驗(yàn)結(jié)果到腥,我最大的感覺就是:
LP這個方法真好的朵逝!又簡單,效果又好O绶丁(基本比復(fù)雜的GLLE差不了多少配名,而且GLLE這個λ調(diào)參估計(jì)挺麻煩的)
但是GLLE的方法,其實(shí)也給了我們很多啟發(fā)晋辆,畢竟相比于LP這種無監(jiān)督的方法渠脉,有監(jiān)督的方法肯定靈活性更強(qiáng),所以取得效果的提示也是很正常的瓶佳。