t-SNE
- t-SNE : t-分布領(lǐng)域嵌入算法供炼,讀作“Tee-Snee”蔚出,它只在用于已標(biāo)記數(shù)據(jù)時(shí)才真正有意義睛琳,可以明確顯示出輸入的聚類狀況仍侥。
主要想法就是,將高維分布點(diǎn)的距離农渊,用條件概率來表示相似性患蹂,同時(shí)低維分布的點(diǎn)也這樣表示。
只要二者的條件概率非常接近(用相對(duì)熵來訓(xùn)練砸紊,所以需要label)传于,那就說明高維分布的點(diǎn)已經(jīng)映射到低維分布上了。 - 難點(diǎn):高維距離較近的點(diǎn)醉顽,比較方便聚在一起沼溜,但是高維距離較遠(yuǎn)的點(diǎn),卻比較難在低維拉開距離游添。
其次系草,訓(xùn)練的時(shí)間也比較長
3.建議觀賞鏈接,絕對(duì)牛逼的t-SNE介紹:從SNE到t-SNE再到LargeVis
PCA
- PCA(Principal Component Analysis)主要成分分析唆涝。
PCA把原先的n個(gè)特征用數(shù)目更少的m個(gè)特征取代找都,新特征是舊特征的線性組合,這些線性組合最大化樣本方差廊酣,盡量使新的m個(gè)特征互不相關(guān)能耻。從舊特征到新特征的映射捕獲數(shù)據(jù)中的固有變異性。
不僅僅是對(duì)高維數(shù)據(jù)進(jìn)行降維啰扛,更重要的是經(jīng)過降維去除了噪聲嚎京,發(fā)現(xiàn)了數(shù)據(jù)中的模式嗡贺。 - 計(jì)算過程:
- 原始數(shù)據(jù)進(jìn)行特征均值化
- 計(jì)算特征均值化后的協(xié)方差矩陣(算出特征之間的關(guān)系)
- 計(jì)算協(xié)方差矩陣的特征值和特征向量(特征值分解)
- 選取大的特征值對(duì)于的特征向量來更新原始數(shù)據(jù)集(直接相乘就好)
-
PCA涉及協(xié)方差隐解,協(xié)方差(conv):
方差的定義:
即,度量各個(gè)維度偏離均值的程度诫睬。仿照其煞茫,協(xié)方差的定義:
假設(shè)我們想統(tǒng)計(jì)一個(gè)男孩子的猥瑣程度跟他受女孩子的歡迎程度是否存在一些聯(lián)系,這是個(gè)二維的特征問題,我們用協(xié)方差來計(jì)算之間的聯(lián)系续徽。協(xié)方差的結(jié)果如果為正值蚓曼,則說明兩者是正相關(guān)的(從協(xié)方差可以引出“相關(guān)系數(shù)”的定義),也就是說一個(gè)人越猥瑣越受女孩歡迎钦扭。如果結(jié)果為負(fù)值纫版, 就說明兩者是負(fù)相關(guān),越猥瑣女孩子越討厭客情。如果為0其弊,則兩者之間沒有關(guān)系,猥瑣不猥瑣和女孩子喜不喜歡之間沒有關(guān)聯(lián)膀斋,就是統(tǒng)計(jì)上說的“相互獨(dú)立”梭伐。
從協(xié)方差的定義上我們也可以看出一些顯而易見的性質(zhì),如:
-
協(xié)方差矩陣
協(xié)方差只能處理二維問題仰担,維數(shù)一多糊识,自然需要計(jì)算多個(gè)協(xié)方差,由此需要矩陣來組織摔蓝。協(xié)方差矩陣定義:
對(duì)于n維的數(shù)據(jù)集要算協(xié)方差赂苗,得到的協(xié)方差矩陣大小就為n^2。但是實(shí)際計(jì)算次數(shù)(每次不分次序抽兩個(gè))只需要
可見项鬼,協(xié)方差矩陣為對(duì)稱的矩陣哑梳,對(duì)角線又為各個(gè)維度的方差。
?5. 觀賞鏈接 : 主成分分析PCA