<h2>摘要</h2>
可視化數(shù)據(jù)挖掘方法在探索數(shù)據(jù)分析具有重大意義录粱,尤其是在挖掘大數(shù)據(jù)方向上具有很高的潛力签财。由于數(shù)據(jù)空間特征是n維伍茄,所以可視化數(shù)據(jù)挖掘依賴(lài)降維技術(shù)间唉。這是一個(gè)可以在三維空間內(nèi)可視化每一個(gè)數(shù)據(jù)點(diǎn)的情況绞灼。本文旨在提出考慮以輸入圖像空間特征的幾種降維方法進(jìn)行比較研究,來(lái)通過(guò)確定最佳的可視化的方法演示類(lèi)的分離呈野。在開(kāi)始時(shí)低矮,要檢查所設(shè)想的方法的性能,一個(gè)包含隨機(jī)向量的人造數(shù)據(jù)描述為6被冒,生成20緯度的帶有間距和低方差的高斯分布军掂。更進(jìn)一步說(shuō),兩個(gè)真實(shí)的圖像數(shù)據(jù)通過(guò)數(shù)據(jù)可視化來(lái)被用于評(píng)估數(shù)據(jù)降緯算法的效率昨悼。該分析側(cè)重于PCA良姆,LDA和tSNE數(shù)據(jù)降緯技術(shù)。我們的測(cè)試是在圖像上計(jì)算特征幔戏,包括顏色直方圖和韋伯描述符。
<h2>1.簡(jiǎn)介</h2>
不斷增長(zhǎng)的可用性的影響檔案創(chuàng)造了一個(gè)巨大的需求去開(kāi)發(fā)和實(shí)現(xiàn)有關(guān)信息檢索的自動(dòng)系統(tǒng)税课。數(shù)據(jù)挖掘被定義為從觀(guān)察到的數(shù)據(jù)提取模型或模式闲延,一個(gè)更為復(fù)雜的處理是將低級(jí)數(shù)據(jù)抽象為高等級(jí)的知識(shí),就是在一片數(shù)據(jù)庫(kù)中去發(fā)現(xiàn)數(shù)據(jù)韩玩。因此垒玲,數(shù)據(jù)可視化的知識(shí)發(fā)現(xiàn)過(guò)程中起著關(guān)鍵的作用,由于它的能力來(lái)說(shuō)明數(shù)據(jù)項(xiàng)之間的隱藏關(guān)系找颓,并提供相應(yīng)的固有的數(shù)據(jù)特征的顯示合愈。
有一個(gè)雙重方法來(lái)可視化數(shù)據(jù)。第一個(gè)目的是確定用于多維數(shù)據(jù)可視化的方法击狮,例如平行坐標(biāo)技術(shù)[1]佛析,肖像或密集像素顯示[2],而第二目標(biāo)彪蓬,盡量減少在維數(shù)據(jù)降緯過(guò)程中發(fā)生的信息丟失寸莫, e.g. PCA [3], LDA [4], t-SNE [5], KECA [6], NeRV [7] and IPCA [8].
這些技術(shù)背后的主要思想是把一個(gè)具有D緯數(shù)據(jù)X變?yōu)樾碌木哂衐(d<D)緯數(shù)據(jù)Y,盡可能按原來(lái)數(shù)據(jù)的幾何形狀進(jìn)行保存档冬。實(shí)際上膘茎,無(wú)論是數(shù)據(jù)的幾何多樣性還是數(shù)據(jù)X的固有緯度都是已知的桃纯。
本文旨在比較研究從圖像特征空間開(kāi)始幾個(gè)降維的方法,從而描繪最佳圖像內(nèi)容的可視化方法披坏。數(shù)據(jù)降維假設(shè)從高維數(shù)據(jù)轉(zhuǎn)化為低維是有意義的表示态坦。理想的情況下,簡(jiǎn)化的表示依舊能對(duì)應(yīng)原生數(shù)據(jù)緯度棒拂,例如只需要最少的數(shù)據(jù)參數(shù)來(lái)觀(guān)察這個(gè)數(shù)據(jù)的屬性伞梯。
<h2>2.方法的提出</h2>
考慮用多維空間特征描詮釋?zhuān)ǚ诸?lèi))數(shù)據(jù)集,三維降緯方法是為了實(shí)現(xiàn)用一個(gè)三維數(shù)據(jù)來(lái)表示一個(gè)圖像數(shù)據(jù)集的信息內(nèi)容着茸。在本文中使用的數(shù)據(jù)降維方法是PCA壮锻,LDA和T-SNE。
PCA是傳統(tǒng)的數(shù)據(jù)降緯算法涮阔。它是基于協(xié)方差矩陣及其特征值的線(xiàn)性變換猜绣。該算法計(jì)算協(xié)方差矩陣及其特征值,保持
只有數(shù)(減少空間的數(shù)量維度)最大值敬特。從形態(tài)變化中保留與特征向量相關(guān)的特征值掰邢。
T-SNE是一個(gè)高維數(shù)據(jù)集分成成對(duì)的相似性矩陣的方法。目的是保持高維數(shù)據(jù)的局部結(jié)構(gòu)伟阔,在條件概率下轉(zhuǎn)化數(shù)據(jù)點(diǎn)間的歐氏距離揭示全局結(jié)構(gòu)(相似性)辣之,找到一個(gè)低維數(shù)據(jù)表示D緯空間和d緯空間之間最低不匹配。
與前面的方法不同皱炉,LDA也被稱(chēng)為也被稱(chēng)為Fisher判別分析怀估,是一個(gè)尋找最佳分類(lèi)操作的有監(jiān)督分類(lèi)。這是通過(guò)搜索設(shè)計(jì)類(lèi)之間的最大化距離(協(xié)方差SB)和同一類(lèi)項(xiàng)目之間的最小化距離(方差SW)實(shí)現(xiàn)合搅。轉(zhuǎn)化是通過(guò)從協(xié)方差逆矩陣得到的矩陣的n個(gè)最大特征值的特征向量對(duì)應(yīng)方差矩陣相乘得到[5]多搀。
一種合成的高維數(shù)據(jù)集的六個(gè)隨機(jī)向量,20維度高斯分布的間距和低差產(chǎn)生來(lái)說(shuō)明算法性能灾部。在圖1和圖2中描繪了應(yīng)用在數(shù)據(jù)集中的可視化的PCA康铭,LDA和T-SNE算法。
另外赌髓,實(shí)際圖像的數(shù)據(jù)庫(kù)(21類(lèi)从藤,256×256像素90遙感圖像補(bǔ)丁)被考慮锁蠕。通過(guò)基于內(nèi)容圖像標(biāo)注軟件的裝置
[9]夷野,對(duì)于每個(gè)貼片顏色直方圖(顏色)描述并用韋伯局部描述符(WLD)[10]進(jìn)行計(jì)算。所得到的空間特征是192維的顏色直方圖和432維的韋伯荣倾。最后通過(guò)PCA扫责、LDA T-SNE算法將這個(gè)空間減少到三維。圖3和圖4顯示三維空間表示逃呼。
根據(jù)在圖4韋伯局部描述符的圖像空間的LDA投影鳖孤,我們可以看到從“停車(chē)場(chǎng)”過(guò)渡(橙色)到“海港”(綠色)者娱,然后進(jìn)一步以“海灘”(藍(lán)色)的區(qū)域,前兩個(gè)在特定方向包含矩形物體最后兩個(gè)處于同一水平面苏揣。t-SNE的可視化結(jié)果在韋伯局部描述空間特征的t-SNE的可視化結(jié)果揭示了相同的過(guò)渡黄鳍,此外,可以從左上角的runway類(lèi)和freewa類(lèi)的不同分布看出它們遵循直角垂直平匈。
在數(shù)據(jù)庫(kù)中應(yīng)用相同的處理階段框沟,由50*50像素的貼出和陸地衛(wèi)星7的貼圖組成ETM +由布加勒斯特光譜指數(shù)形成五號(hào)類(lèi)。
在圖5a)和c)中提供了用于空間降緯的PCA算法的得出特征空間(顏色和WLD)的結(jié)果增炭。在圖6 顯示了進(jìn)過(guò)LDA和t-SNE降緯之后的結(jié)果忍燥。從這些數(shù)字可以看到,LDA算法應(yīng)用于彩色直方圖很好的分離的“城市”和“植被”類(lèi)隙姿。所有的預(yù)測(cè)結(jié)果表明梅垄,農(nóng)村地區(qū)表現(xiàn)出轉(zhuǎn)化到所有其他類(lèi),是由于“農(nóng)村”貼圖包含所有類(lèi)的區(qū)域输玷。
<h2>3.評(píng)論和結(jié)論</h2>
降維算法將D緯度的數(shù)據(jù)集X轉(zhuǎn)化d緯度的數(shù)據(jù)集Y队丝,同時(shí)保留盡可能多的幾何數(shù)據(jù)。通常情況下欲鹏,數(shù)據(jù)的幾何形狀和原始數(shù)據(jù)的固有緯度都不是已知的机久。因此,降維是一個(gè)不適定的問(wèn)題赔嚎,只能通過(guò)假設(shè)某些屬性的數(shù)據(jù)來(lái)解決膘盖。分析的結(jié)果可以觀(guān)察到的T-SNE算法導(dǎo)致同一組類(lèi)更為緊湊,允許出現(xiàn)單一的一個(gè)簡(jiǎn)單的隔離的類(lèi)尤误,如果有必要衔憨,進(jìn)一步有效的信息檢索。這個(gè)結(jié)果是獨(dú)立于數(shù)據(jù)庫(kù)屬性和圖像類(lèi)型袄膏。圖1顯示三種保存的人工數(shù)據(jù)庫(kù)項(xiàng)目之間的空間關(guān)系的方法。在人工數(shù)據(jù)集掺冠,T-SNE似乎是最合適的降維方法當(dāng)LDA是最好在應(yīng)用于韋伯局部描述符特征空間的數(shù)據(jù)集的方法沉馆。PCA在光譜指數(shù)的Landsat 7 ETM+圖像的顏色直方圖特征空間描述的案例提供了最好的結(jié)果。
總之德崭,PCA斥黑,LDA和T-SNE算法可以用于多維數(shù)據(jù)的可視化。其性能是直接依賴(lài)于是否正確的選擇的合適的數(shù)據(jù)庫(kù)的描述眉厨。這種觀(guān)察也適用于圖6锌奴,其中韋伯局部描述的數(shù)據(jù)降緯空間特征導(dǎo)致更好的類(lèi)的分離,相較于那些不包含貼圖取向的顏色直方圖的空間特征憾股。類(lèi)的數(shù)目也影響結(jié)果的質(zhì)量鹿蜀。第二和第三實(shí)驗(yàn)的結(jié)果的比較表明箕慧,類(lèi)的數(shù)量會(huì)影響算法的性能。
空間降維特征的可視化優(yōu)化方法
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
- 文/潘曉璐 我一進(jìn)店門(mén)雕沉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)集乔,“玉大人,你說(shuō)我怎么就攤上這事蘑秽〗戎” “怎么了?”我有些...
- 文/不壞的土叔 我叫張陵肠牲,是天一觀(guān)的道長(zhǎng)幼衰。 經(jīng)常有香客問(wèn)我,道長(zhǎng)缀雳,這世上最難降的妖魔是什么渡嚣? 我笑而不...
- 正文 為了忘掉前任,我火速辦了婚禮肥印,結(jié)果婚禮上识椰,老公的妹妹穿的比我還像新娘。我一直安慰自己深碱,他們只是感情好腹鹉,可當(dāng)我...
- 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著敷硅,像睡著了一般功咒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上绞蹦,一...
- 那天力奋,我揣著相機(jī)與錄音,去河邊找鬼幽七。 笑死景殷,一個(gè)胖子當(dāng)著我的面吹牛鲁纠,可吹牛的內(nèi)容都是我干的醋奠。 我是一名探鬼主播颈畸,決...
- 文/蒼蘭香墨 我猛地睜開(kāi)眼蝶涩,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了亭饵?” 一聲冷哼從身側(cè)響起休偶,我...
- 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎辜羊,沒(méi)想到半個(gè)月后踏兜,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
- 正文 獨(dú)居荒郊野嶺守林人離奇死亡八秃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
- 正文 我和宋清朗相戀三年碱妆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昔驱。...
- 正文 年R本政府宣布腋颠,位于F島的核電站繁成,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏淑玫。R本人自食惡果不足惜巾腕,卻給世界環(huán)境...
- 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望絮蒿。 院中可真熱鬧尊搬,春花似錦、人聲如沸土涝。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)但壮。三九已至冀泻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間茵肃,已是汗流浹背。 一陣腳步聲響...
- 正文 我出身青樓巾乳,卻偏偏與公主長(zhǎng)得像您没,于是被迫代替她去往敵國(guó)和親鸟召。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
推薦閱讀更多精彩內(nèi)容
- //我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(三):互聯(lián)網(wǎng)時(shí)代 ? 上篇http://www.infoq.com/cn/arti...
- 在現(xiàn)實(shí)生活中很多機(jī)器學(xué)習(xí)問(wèn)題有上千維氨鹏,甚至上萬(wàn)維特征欧募,這不僅影響了訓(xùn)練速度,通常還很難找到比較好的解仆抵。這樣的問(wèn)題成...
- 作者所在班級(jí)1402012 作 者 姓 名符子龍 作 者 學(xué) 號(hào)14020120006 《基于深度學(xué)習(xí)的視網(wǎng)膜OC...
- 原文:http://dataunion.org/13451.html 引言: 機(jī)器學(xué)習(xí)領(lǐng)域中所謂的降維就是指采用某...