WWW'16(高維數(shù)據(jù)可視化)-Visualizing Large-scale and High-dimensional Data

標(biāo)題:大規(guī)模高維數(shù)據(jù)可視化
作者來自MSRA
代碼開源好用:https://github.com/lferry007/LargeVis

編者的總結(jié)

  1. 類似t-SNE,本文以KNN圖捕捉原始數(shù)據(jù)分布妹笆,但目標(biāo)函數(shù)沒有采用KL散度西饵,但含義是類似地柴墩,只是更好地幫助訓(xùn)練惦辛,達(dá)成更快的速度和更穩(wěn)定的參數(shù)俗孝。
  2. 對于相似度的度量主要是L2距離条舔,無論在高維或者低維叙赚,不清楚在其他度量空間上是否有效。
  3. 相比于t-SNE拭荤,降維速度和參數(shù)穩(wěn)定性有很大提升茵臭,但是仍然比較慢,測試1M舅世,8線程要2-3個(gè)小時(shí)左右旦委。

ABSTRACT

  • 本文是t-SNE的進(jìn)階版本,有兩個(gè)主要貢獻(xiàn)雏亚,一個(gè)是原始數(shù)據(jù)的KNN圖構(gòu)建加速缨硝,另一個(gè)是KNN圖投影到低維空間時(shí)的優(yōu)化目標(biāo)和訓(xùn)練方法更好更快了。
  • 而且超參數(shù)更少更穩(wěn)定罢低,也是一個(gè)主要優(yōu)點(diǎn)查辩。

1. INTRODUCTION

  • 降維/可視化的目的是在低維空間保持?jǐn)?shù)據(jù)點(diǎn)之間的近鄰性,原來近的降維之后也近网持,原來遠(yuǎn)的降維之后也遠(yuǎn)宜岛。
  • 主要方法有線性(PCA,multi-dimension scaling)功舀,和非線性的(local linear embedding, laplacian eigenmaps)萍倡,按照t-SNE作者的說法,高維數(shù)據(jù)通常躺在低維空間的非線性流形上日杈,所以線性方法有效性有限遣铝。
  • 非線性方法也沒有在保持局部和全局結(jié)構(gòu)。
  • 目前最有效的就是t-SNE莉擒,基本策略是用一個(gè)KNN圖來代表原始數(shù)據(jù)的分布特征酿炸,然后將KNN圖投影到二維或低維空間。
image.png

3. LARGEVIS

3.1 Efficient KNN Graph Construction

這一部分沒什么好說的涨冀,KNN-graph用最新的技術(shù)去做就可以了填硕。
本文采用的是用樹來初始化knn-graph,用nn-descent來refine的過程鹿鳖,和effana比較像扁眯。樹的分裂是隨機(jī)選兩個(gè)點(diǎn),取中間平面進(jìn)行分割翅帜。

3.2 A Probabilistic Model for Graph Visualization

首先KNN圖邊的權(quán)重和t-SNE的設(shè)計(jì)一樣:


image.png
  • 含義是當(dāng)前i,j邊的長度和i所有的出邊的長度和的比值姻檀,相當(dāng)于一種歸一化。
  • 然后準(zhǔn)備投影到低維空間涝滴,基本思路是首先隨機(jī)初始化每個(gè)點(diǎn)的坐標(biāo)绣版,然后根據(jù)一個(gè)目標(biāo)函數(shù),每次sample一條邊對它的起點(diǎn)進(jìn)行refine歼疮,refine是一個(gè)梯度下降的訓(xùn)練過程杂抽。
  • 目標(biāo)函數(shù):對于在KNN圖中的邊,在二維空間上越近越好韩脏;反之亦然缩麸。KNN圖上的邊的權(quán)重在目標(biāo)函數(shù)上也是一個(gè)權(quán)重項(xiàng)。
  • p(e_{ij}=1)表示的是在二維空間上的兩點(diǎn)之間相似度赡矢,可以用歐氏距離的一些變種來替代杭朱。
    image.png
  • 實(shí)際情況1:因?yàn)樨?fù)邊實(shí)在太多,不可能全用吹散,所以可以采用一些負(fù)采樣技術(shù)痕檬,按照一個(gè)噪聲分布和一個(gè)正負(fù)邊的比例去采樣一些邊來訓(xùn)練。
  • 實(shí)際情況2:權(quán)重w_{ij}有時(shí)不好控制范圍送浊,可以通過權(quán)重大的邊多采樣幾次梦谜,權(quán)重小的邊少采樣的方式,將權(quán)重抹除袭景。
  • 優(yōu)化器:異步隨機(jī)梯度下降唁桩,簡單點(diǎn)來說,如果圖很稀疏耸棒,邊很少(比如KNN圖K/N的稀疏度)荒澡,所以并行訓(xùn)練隨機(jī)采樣邊幾乎不會(huì)發(fā)生沖突,所以就可以不加鎖与殃,同步訓(xùn)練单山。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末碍现,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子米奸,更是在濱河造成了極大的恐慌昼接,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件悴晰,死亡現(xiàn)場離奇詭異慢睡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)铡溪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門漂辐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人棕硫,你說我怎么就攤上這事髓涯。” “怎么了哈扮?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵复凳,是天一觀的道長。 經(jīng)常有香客問我灶泵,道長育八,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任赦邻,我火速辦了婚禮髓棋,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘惶洲。我一直安慰自己按声,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布恬吕。 她就那樣靜靜地躺著签则,像睡著了一般。 火紅的嫁衣襯著肌膚如雪铐料。 梳的紋絲不亂的頭發(fā)上渐裂,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天,我揣著相機(jī)與錄音钠惩,去河邊找鬼柒凉。 笑死,一個(gè)胖子當(dāng)著我的面吹牛篓跛,可吹牛的內(nèi)容都是我干的膝捞。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼愧沟,長吁一口氣:“原來是場噩夢啊……” “哼蔬咬!你這毒婦竟也來了鲤遥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤林艘,失蹤者是張志新(化名)和其女友劉穎盖奈,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體北启,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡康吵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年境析,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片来吩。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蚊俺,死狀恐怖懈涛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情泳猬,我是刑警寧澤批钠,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站得封,受9級特大地震影響埋心,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜忙上,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一拷呆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧疫粥,春花似錦茬斧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至慷彤,卻和暖如春娄蔼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背底哗。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工贷屎, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人艘虎。 一個(gè)月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓唉侄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親野建。 傳聞我的和親對象是個(gè)殘疾皇子属划,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容