標(biāo)簽增強(qiáng)技術(shù)

LearnFromPapers系列——標(biāo)簽增強(qiáng)技術(shù)(Label Enhancement)

<center>作者:郭必?fù)P</center>
<center>時間:2020.12.29</center>

前言:我們習(xí)慣于使用one-hot標(biāo)簽來進(jìn)行模型的訓(xùn)練,但是有沒有辦法可以構(gòu)造出更好的標(biāo)簽?zāi)毓硬撸勘疚闹饕鶕?jù)東南大學(xué)的論文“Label Enhancement for Label Distribution Learning”進(jìn)行解讀和整理嘲恍,從而認(rèn)識并理解在分類問題中“標(biāo)簽增強(qiáng)”技術(shù)斑唬。

image.png
  • 論文標(biāo)題:Label Enhancement for Label Distribution Learning
  • 會議/期刊:IJCAI-18
  • 團(tuán)隊(duì):東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院

標(biāo)簽分布 & 標(biāo)簽分布學(xué)習(xí)

標(biāo)簽分布學(xué)習(xí)(Label Distribution Learning第煮,LDL)的任務(wù)是讓模型去學(xué)習(xí)一個樣本的標(biāo)簽分布(Label Distribution)健爬,即每一個維度都反映對應(yīng)標(biāo)簽程度的一種概率分布佩耳。這樣的標(biāo)簽概率分布可以比one-hot更好地表示一個樣本的情況砂竖,原因主要有以下:

  • 一個標(biāo)簽跟樣本是否有關(guān)真椿,是一個相對的概念,即沒有一個“判斷是否相關(guān)”的絕對標(biāo)準(zhǔn)晦溪;
  • 當(dāng)多個標(biāo)簽都跟樣本相關(guān)時瀑粥,它們的相關(guān)程度一般也是不同的;
  • 多個跟樣本不相關(guān)的標(biāo)簽三圆,它們的不相關(guān)程度也一般是不同的狞换。

論文作者給出了幾個生動的例子:

image.png

然而,LDL任務(wù)的主要困難之一就是舟肉,標(biāo)簽分布是十分難以獲取的修噪。大多數(shù)的分類數(shù)據(jù)集都不具備這樣的條件,都只有一些ligical label路媚。所謂logical label黄琼,就是指one-hot或者multi-one-hot的label。要獲取真實(shí)的標(biāo)簽分布整慎,理論上是需要對同一樣本進(jìn)行大量的打標(biāo)脏款,得到其統(tǒng)計(jì)分布的,但這背后的人工成本是無法承受的裤园。

主要思想

一個自然的解決辦法就是撤师,既然無法從外部得到樣本的標(biāo)簽分布,那就使用樣本集自身的特征空間來構(gòu)造出這樣的標(biāo)簽分布拧揽。

image.png

本文把這一類的方法稱為label Enhancement(LE)剃盾,并介紹了幾種LE的方法腺占,下面分別作簡單的介紹。

幾種經(jīng)典的LE方法

1. Fuzzy C-Means(FCM)

Fuzzy C-Means 是一個代表性的“軟聚類”算法(soft clustering)痒谴。它實(shí)際上是對K-Means這種“硬聚類”算法的一種改進(jìn)衰伯。K-means聚類只能將一個點(diǎn)劃分到一個簇里,而FCM則可以給出一個點(diǎn)歸屬于各個簇的概率分布积蔚。

FCM的目標(biāo)函數(shù)為:
\underset{C}{\arg \min } \sum_{i=1}^{n} \sum_{j=1}^{c} w_{i j}^{m}\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|^{2}
其中x_i是樣本點(diǎn)的特征向量意鲸,c_j是簇中心的特征向量,w^m是每個點(diǎn)歸屬于每個簇的系數(shù)尽爆,c類別數(shù)临扮,n是樣本總數(shù)。
w^m的計(jì)算公式如下教翩,顯然離某個簇越近,其系數(shù)就越大:
w_{i j}=\frac{1}{\sum_{k=1}^{c}\left(\frac{\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|}{\left\|\mathbf{x}_{i}-\mathbf{c}_{k}\right\|}\right)^{\frac{2}{m-1}}}
而簇中心的計(jì)算方法為贪壳,就是所有樣本點(diǎn)特征的一個加權(quán)平均饱亿,其中m是超參數(shù),控制fuzzy的程度闰靴,越大簇之間就越模糊:
c_{k}=\frac{\sum_{x} w_{k}(x)^{m} x}{\sum_{x} w_{k}(x)^{m}}

通過FCM算法彪笼,如果設(shè)置k個簇,樣本x_i的簇概率分布就是w_i這個c維向量蚂且。

然后配猫,構(gòu)造一個分類類別(classes)與聚類簇(clusters)之間的一個軟連接矩陣k×c的矩陣A:
A_j = A_j + w_i
即A的第j行(代表第j個類別),是由所有屬于該類別的樣本的簇分布累加而得到的杏死。

最后泵肄,通過矩陣A與w_i點(diǎn)乘,就可以將每個樣本的簇分布(c個簇)淑翼,轉(zhuǎn)化為標(biāo)簽分布(k個標(biāo)簽)了腐巢。

上面的過程,可以通過下圖來表達(dá):

image.png

2.Label Propagation(LP)

LP的主要思想是通過樣本之間的相似度矩陣玄括,來逐步調(diào)整原本的logical label representation冯丙。

第一步,通過下面的公式遭京,計(jì)算N個樣本之間的一個N×N的相似性矩陣A:
a_{i j}=\left\{\begin{array}{cl} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2}\right) & \text { if } i \neq j \\ 0 & \text { if } i=j \end{array}\right.

然后胃惜,根據(jù)下面的公式,構(gòu)建label propagation matrix哪雕,即標(biāo)簽傳導(dǎo)矩陣P:
\boldsymbol{P}=\hat{\boldsymbol{A}}^{-\frac{1}{2}} \boldsymbol{A} \hat{\boldsymbol{A}}^{-\frac{1}{2}}

看到這個公式船殉,熟悉GCN的人會發(fā)現(xiàn),這不就是拉普拉斯矩陣嘛热监,目的主要是為了讓原本的A矩陣歸一化和對稱捺弦。圖神經(jīng)網(wǎng)絡(luò)的核心,也是鄰居節(jié)點(diǎn)之間的互相傳播,跟這里的相似樣本之間列吼,進(jìn)行標(biāo)簽信息的傳播是類似的思想幽崩。

有了這個P傳播矩陣,就可以來通過“傳播”來構(gòu)造標(biāo)簽分布D了:
\boldsymbol{D}^{(t)}=\alpha \boldsymbol{P} \boldsymbol{D}^{(t-1)}+(1-\alpha) \boldsymbol{L}
其中L是原本的one-hot的logical label矩陣寞钥,D使用L來初始化慌申。

通過不斷迭代上式,就可以得到一個趨于穩(wěn)定的標(biāo)簽分布矩陣D了理郑。

還是照例畫一個圖:

image.png

3.Mainifold Learning(LM)

除了LP之外蹄溉,還有一個Mainifold Learning(LM),主要思想就是假設(shè)一個樣本點(diǎn)的特征您炉,可以完全由其相鄰點(diǎn)的特征線性表示柒爵。所謂相鄰點(diǎn),就是通過KNN得到的最近鄰赚爵。
所以第一步就是優(yōu)化下面的目標(biāo):
\Theta(\boldsymbol{W})=\sum_{i=1}^{n}\left\|\boldsymbol{x}_{i}-\sum_{j \neq i} w_{i j} \boldsymbol{x}_{j}\right\|^{2}

學(xué)習(xí)出相似節(jié)點(diǎn)之間的互相表示的方法棉胀,即某個點(diǎn)是如何被其他的鄰近點(diǎn)所線性表示的。

然后冀膝,再去優(yōu)化這個目標(biāo)唁奢,得到標(biāo)簽分布:
\begin{array}{l} \Psi(\boldsymbolhapwhna)=\sum_{i=1}^{n}\left\|\boldsymbolr3kqf21_{i}-\sum_{j \neq i} w_{i j} \boldsymbol7laskj3_{j}\right\|^{2} \\ \text { s.t. } \quad d_{\boldsymbol{x}_{i}}^{y_{i}} l_{\boldsymbol{x}_{i}}^{y_{l}}>\lambda, \forall 1 \leq i \leq n, 1 \leq j \leq c \end{array}

以上是三種傳統(tǒng)的Label Enhancement方法。雖然傳統(tǒng)窝剖,但是其思想我覺得我覺得都挺有意思的麻掸,由其是FCM和LP方法。

本文提出的新方法:GLLE

GLLE全稱為Graph Laplacian Label Enhancement赐纱。也是一種基于圖的思想的方法脊奋。

別看這個名字這么復(fù)雜,其實(shí)其思想很簡單:

在訓(xùn)練標(biāo)簽預(yù)測模型的同時千所,也考慮學(xué)習(xí)標(biāo)簽間的相似性狂魔。

假設(shè)我們的預(yù)測模型是這樣的:
\boldsymbolgrgcctv_{i}=\boldsymbol{W}^{\top} \varphi\left(\boldsymbol{x}_{i}\right)+\boldsymbol=\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}

這里的d淫痰,就是要學(xué)習(xí)的標(biāo)簽分布最楷,W就是這個預(yù)測模型的參數(shù)。

根據(jù)前面提到的思想待错,作者設(shè)計(jì)的目標(biāo)函數(shù)是這樣的籽孙,由兩部分組成
\min _{\hat{\boldsymbol{W}}} L(\hat{\boldsymbol{W}})+\lambda \Omega(\hat{\boldsymbol{W}})

前一個部分,就是一個普通的MSE損失函數(shù)或最小二乘損失:
L(\hat{\boldsymbol{W}})=\sum_{i=1}^{n}\left\|\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}-\boldsymbol{l}_{i}\right\|^{2}
如果只優(yōu)化這個目標(biāo)火俄,那么得到的就是一個傾向于one-hot/logical label的預(yù)測模型犯建。

第二部分,希望相似的樣本其分布也相似
\Omega(\hat{\boldsymbol{W}})=\sum_{i, j} a_{i j}\left\|\boldsymbolz3dzk87_{i}-\boldsymbolzaalwya_{j}\right\|^{2}
其中這里的a是表達(dá)樣本i和j之間的相似系數(shù)瓜客,公式如下:
a_{i j}=\left\{\begin{array}{cc} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2 \sigma^{2}}\right) & \text { if } \boldsymbol{x}_{j} \in N(i) \\ 0 & \text { otherwise } \end{array}\right.

可以發(fā)現(xiàn)适瓦,這里計(jì)算相似性的方法竿开,跟Label Propagation十分相似,只是多了一個“僅在最近鄰范圍內(nèi)計(jì)算相似度”這樣的限制玻熙,因此作者稱之為“l(fā)ocal similarity matrix”否彩。

后面作者當(dāng)然扯了一大堆這個目標(biāo)怎么求解這個優(yōu)化問題巴拉巴拉,我是不太懂的嗦随,感覺是可以使用梯度下降法來求的列荔。

總之,可以看出這是一個有兩個目標(biāo)的優(yōu)化問題枚尼,通過一個λ參數(shù)控制二者的比例贴浙,同時優(yōu)化兩個方面,雖然兩個方向上都不會最優(yōu)署恍,但是可以兼顧兩個方面的效果崎溃,即最后得到的label distribution(LD)既逼近logical label,同時相似樣本之間的LD也是類似的盯质。

各個方法結(jié)果對比:

作者主要使用了兩種方法進(jìn)行效果對比:

  • 從logical label恢復(fù)到原本的label distribution的水平
  • 利用得到的label distribution來訓(xùn)練LDL模型看預(yù)測效果

對于恢復(fù)效果笨奠,有一個自制三維數(shù)據(jù)集的可視化:

image.png

可以看出,GLLE和LP都比較接近ground truth了唤殴。

另外在其他數(shù)據(jù)集上,作者通過計(jì)算相似度來衡量使用各個LE方法來進(jìn)行模型訓(xùn)練的效果:

image.png

還有一個平均排名:

image.png

看完了這些實(shí)驗(yàn)結(jié)果到腥,我最大的感覺就是:

LP這個方法真好的朵逝!又簡單,效果又好O绶丁(基本比復(fù)雜的GLLE差不了多少配名,而且GLLE這個λ調(diào)參估計(jì)挺麻煩的)
但是GLLE的方法,其實(shí)也給了我們很多啟發(fā)晋辆,畢竟相比于LP這種無監(jiān)督的方法渠脉,有監(jiān)督的方法肯定靈活性更強(qiáng),所以取得效果的提示也是很正常的瓶佳。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末芋膘,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子霸饲,更是在濱河造成了極大的恐慌为朋,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件厚脉,死亡現(xiàn)場離奇詭異习寸,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)傻工,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進(jìn)店門霞溪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來孵滞,“玉大人,你說我怎么就攤上這事鸯匹》蝗模” “怎么了?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵忽你,是天一觀的道長悠轩。 經(jīng)常有香客問我溢豆,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任璧榄,我火速辦了婚禮,結(jié)果婚禮上黔攒,老公的妹妹穿的比我還像新娘旨巷。我一直安慰自己,他們只是感情好尿赚,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布散庶。 她就那樣靜靜地躺著,像睡著了一般凌净。 火紅的嫁衣襯著肌膚如雪悲龟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天冰寻,我揣著相機(jī)與錄音须教,去河邊找鬼。 笑死斩芭,一個胖子當(dāng)著我的面吹牛轻腺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播划乖,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼贬养,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了琴庵?” 一聲冷哼從身側(cè)響起误算,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎迷殿,沒想到半個月后尉桩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡贪庙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年蜘犁,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片止邮。...
    茶點(diǎn)故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡这橙,死狀恐怖奏窑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情屈扎,我是刑警寧澤埃唯,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站鹰晨,受9級特大地震影響墨叛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜模蜡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一漠趁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧忍疾,春花似錦闯传、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至则披,卻和暖如春共缕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背士复。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工骄呼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人判没。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像隅茎,于是被迫代替她去往敵國和親澄峰。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容