可視化是機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的最后一公里,好的可視化可以讓人們對數(shù)據(jù)結(jié)果一目了然饿敲。下面介紹一下基本知識和可視化要點(diǎn)。
翻譯自(Data Visualization: Rules for Encoding Values in Graph憎夷, 作者 Stephen Few)
1. 散點(diǎn)圖
可視化‘相關(guān)性的’時候型酥,散點(diǎn)圖特別有用,比折線圖的視覺效果好焦蘑,下圖表明y軸和x軸存在微弱的正相關(guān)盯拱。
2. 點(diǎn)線圖
用線段連接兩個點(diǎn),可視化時間序列數(shù)據(jù),此時一定不要用散點(diǎn)圖:
而要使用折線圖狡逢,可以便于比較不同時間的點(diǎn)值的大小宁舰。:
如下,便于比較相同時間下不同類型點(diǎn)值的大猩莼搿:
禁忌:
不同部門的值蛮艰,用線連接起來毫無意義,如下:
3. 柱狀圖
也可以用來加密時間序列數(shù)據(jù)殷费,此時柱狀圖側(cè)重點(diǎn)不在于展示趨勢印荔,而在于表現(xiàn)體量。
注意详羡,有時候柱狀圖的數(shù)值遠(yuǎn)遠(yuǎn)高于0值仍律,人們?yōu)榱烁玫卦谝曈X上對比差異,縱軸往往從高于0值的某個值開始实柠,以達(dá)到縮窄變化幅度的目的水泉,如下圖(實(shí)際上下圖存在嚴(yán)重的可視化問題,下面會分析):
問題在于窒盐,從坐標(biāo)變化后的圖來看草则,視覺上,1月的金額差不多占2月金額的1/15蟹漓,但實(shí)際數(shù)值相差沒有這么大炕横,此時只能從0刻度開始。如何避免這個問題呢即:既要便于比較差異葡粒,又不會在視覺尺度上造成這么大的視覺誤差份殿?這種情況下,不要用柱狀圖嗽交,而要用點(diǎn)圖或線圖卿嘲,原因在于柱狀圖加密信息的時候用到了位置和柱長度,而點(diǎn)圖只用到了位置夫壁。效果如下: