Scatter Plot Matrix 又叫 Scagnostic. 是一種常用的高維度數(shù)據(jù)可視化技術(shù)。它將高維度的數(shù)據(jù)每?jī)蓚€(gè)變量組成一個(gè)散點(diǎn)圖缀蹄,再將他們按照一定的順序組成散點(diǎn)圖矩陣峭跳。通過這樣的可視化方式,能夠?qū)⒏呔S度數(shù)據(jù)中所有的變量?jī)蓛芍g的關(guān)系展示出來缺前。
Figure 1, 用scatter plot matrix 展示了安德森鳶尾花卉數(shù)據(jù)集(Anderson’s Iris data set) , 數(shù)據(jù)集里面一共有四個(gè)變量 sepals width, sepals height, petals width, petals height(看又左到右對(duì)角線4個(gè)散點(diǎn)圖蛀醉,這四個(gè)散點(diǎn)圖的橫縱變量是sepals width - vs - sepals width, sepals height - vs - sepals height,….這是為什么,散點(diǎn)圖的點(diǎn)只顯示在對(duì)角線上).最上面左邊的散點(diǎn)圖橫軸是petal width, 縱軸是sepal width. 圖中的三種顏色表示三種不同的種類的安德森鳶尾花衅码。通過這樣的方式拯刁,我們能夠一眼看到所有的數(shù)據(jù),同時(shí)進(jìn)行比較逝段。但是可以看到圖標(biāo)中沿著對(duì)角線兩邊的圖標(biāo)是對(duì)稱的,因?yàn)橛胹epals width -vs-?petals height, 和?petals height -vs-?sepals width 展示出來的散點(diǎn)圖是類似的垛玻,只是將橫軸縱軸對(duì)調(diào)。
Figure 2奶躯,對(duì)scatter plot 進(jìn)行了改良帚桩,將重復(fù)的散點(diǎn)圖換成了數(shù)據(jù),數(shù)據(jù)表示的是correlate rate(線性相關(guān)性)巫糙。對(duì)角線的散點(diǎn)圖改成了柱狀圖朗儒,用來顯示當(dāng)前變量的數(shù)值分布。
Scatter Plot Matrix 最初是由john and paul turkey 提出的, 如之前所提参淹,它能夠讓你一眼就看到所有的變量的兩兩相關(guān)性醉锄。但是這個(gè)技術(shù)有一個(gè)很大的缺陷,就是單數(shù)據(jù)的維度變得很大的時(shí)候計(jì)算機(jī)的屏幕就無法容納這么多的散點(diǎn)圖浙值。Here is an example from Mike Bostock你只需要把頁面的數(shù)據(jù)改成自己的數(shù)據(jù)恳不,就可以用這個(gè)技術(shù)玩自己的數(shù)據(jù)了。