簡單概括每一節(jié)的表達(dá)核心占拍,注重整本書的結(jié)構(gòu)
第一章 用數(shù)據(jù)講故事
1.1 不只是數(shù)字
可視化在新聞奶浦、藝術(shù)性兄墅、娛樂性、引入注目方面的例子澳叉。讓數(shù)據(jù)得以被分析隙咸、傳達(dá)情感等。
1.2 我們要尋求什么
關(guān)注處理數(shù)據(jù)的模式成洗、數(shù)據(jù)間的相互關(guān)系以及異常數(shù)據(jù)五督。
1.3 設(shè)計(jì)
設(shè)計(jì)圖表時(shí)的注意點(diǎn):
- 解釋性的內(nèi)容:標(biāo)簽、說明文字瓶殃、圖解等
- 標(biāo)注坐標(biāo)軸
- 正確的幾何圖形
- 提供數(shù)據(jù)來源
- 考慮需求場景
1.4 小結(jié)
以實(shí)際問題為出發(fā)點(diǎn)充包,保證數(shù)據(jù)正確性,把握圖表的設(shè)計(jì)意圖和受眾群體遥椿。
第二章 處理數(shù)據(jù)
2.1 收集數(shù)據(jù)
介紹了幾個(gè)數(shù)據(jù)來源:
- 他人提供
- 搜索引擎
- 專業(yè)網(wǎng)站等
提供了 python 實(shí)現(xiàn)網(wǎng)頁爬蟲的示例基矮。
2.2 設(shè)置數(shù)據(jù)的格式
數(shù)據(jù)的三種格式:
- 帶分隔符的文本
- JSON
- XML
處理數(shù)據(jù)格式的幾種工具。
用代碼處理數(shù)據(jù)格式的示例冠场。
2.3 小結(jié)
如何獲取數(shù)據(jù)并處理數(shù)據(jù)格式家浇。
第三章 選擇可視化工具
3.1 開箱即用的可視化工具
excel、google doc碴裙、tableau 等
3.2 編程工具
python钢悲、processing点额、javascript、R 等
3.3 繪圖軟件
Adobe Illustrator莺琳、Inkscape 等
3.4 地圖繪制工具
google 地圖还棱、polymaps、R 等
3.5 衡量各種選項(xiàng)
按需
3.6 小結(jié)
可視化工具介紹
第四章 有關(guān)時(shí)間趨勢的可視化
4.1 在時(shí)間中尋求什么
趨勢性芦昔、全局和細(xì)節(jié)
4.2 時(shí)間中的離散點(diǎn)
柱形圖:
- 可以表現(xiàn)離散時(shí)間
- 柱形高度是其體現(xiàn)數(shù)值的視覺線索诱贿,柱形的寬度和間隔不代表任何信息
- 柱形圖的數(shù)值軸必須從 0 開始,否則難以從視覺上比較柱形的高度
- 示例:歷年熱狗大胃王比賽成績
堆疊柱形圖:
- 柱形高度代表總數(shù)值咕缎,內(nèi)部柱形高度代表子類別的數(shù)值
- 示例:歷年熱狗大胃王比賽前三甲成績
散點(diǎn)圖:
- 可以表示離散時(shí)間
- 用點(diǎn)的位置作為數(shù)值的視覺線索珠十,數(shù)值軸不必從 0 開始
- 示例:網(wǎng)站訂閱者數(shù)量
4.3 延續(xù)性數(shù)據(jù)
延續(xù)性數(shù)據(jù)源也是離散數(shù)據(jù)集,表現(xiàn)的是不斷變化的現(xiàn)象凭豪。
折線圖:
- 缺陷是必須要表現(xiàn)兩點(diǎn)間的穩(wěn)定變化
階梯圖:
- 適用于躍變的情況
- 示例:美國郵費(fèi)變化情況
擬合線:
- 幫助在雜亂的數(shù)據(jù)中表現(xiàn)出趨勢
- 常用的有局部加權(quán)散點(diǎn)平滑法(LOESS)
- 示例:歷年美國失業(yè)率
4.4 小結(jié)
- 直觀體現(xiàn)出事物的變化趨勢
- 引導(dǎo)某個(gè)時(shí)間段變化的原因
- 引導(dǎo)關(guān)注值得注意的部分
第五章 有關(guān)比例的可視化
不同于時(shí)間序列數(shù)據(jù)中以時(shí)間為分組依據(jù)焙蹭,在比例數(shù)據(jù)中以樣本空間作為分組。
5.1 在比例中尋求什么
比例的分配嫂伞。
5.2 整體中的部分
既希望呈現(xiàn)各部分和其他部分的相對關(guān)系孔厉,又希望保持整體上的感覺。
餅圖:
- 不精確帖努,角度不易衡量
- 不要分成太多塊
- 顏色也可以作為視覺線索撰豺,深淺代表重點(diǎn)的強(qiáng)弱
- 示例:用戶對數(shù)據(jù)各相關(guān)領(lǐng)域感興趣的情況
面包圈圖:
- 只能通過弧形的長度來衡量數(shù)值
- 中間可以放標(biāo)簽或其他內(nèi)容
- 也不適合較多分類
- 示例:用戶對數(shù)據(jù)各相關(guān)領(lǐng)域感興趣的情況
堆疊柱形圖:
- 多餅圖與堆疊柱形圖的案例:與角度相比,人們對柱形更敏感
- 示例:奧巴馬在各問題上的支持率
板塊層級圖(treemap):
- 基于面積的可視化方式拼余,通過每一個(gè)板塊的尺寸大小度量
- 適合樹狀結(jié)構(gòu)的數(shù)據(jù)(如磁盤使用情況)
- 示例:網(wǎng)站上各文章的受歡迎程度
5.3 帶時(shí)間屬性的比例
堆疊面積圖:
- 堆疊總高度表示某一時(shí)刻總量污桦,內(nèi)部堆疊高度表示某一時(shí)刻某一類別的數(shù)值
- 水平軸表示時(shí)間,多個(gè)時(shí)間序列圖表堆疊
- 不適用于分類多的情況
- 每一層的變化趨勢難以識(shí)別
- 示例:歷年各年齡段人群占總?cè)丝诘谋壤准唷v年消費(fèi)開支的比例
時(shí)間序列圖:
- 數(shù)值軸為百分比
- 解決了堆疊面積圖難以識(shí)別每一層的變化的問題
- 但失去了整體性和比例分布信息
- 示例:歷年各年齡段人群占總?cè)丝诘谋壤?/li>
5.4 小結(jié)
比例分布數(shù)據(jù)主要特點(diǎn)在于每個(gè)單獨(dú)的數(shù)值有意義凡橱,各部分相加的子集和總和也有意義,可視化需要體現(xiàn)出這些方面亭姥。
- 少量數(shù)值:餅圖稼钩、面包圈圖
- 多個(gè)類別的多個(gè)數(shù)值:堆疊柱形圖(非多個(gè)餅圖)
- 時(shí)間信息:堆疊面積圖、時(shí)間序列圖
第六章 有關(guān)關(guān)系的可視化
如何通過可視化的方法挖掘出并強(qiáng)調(diào)這些關(guān)系
6.1 在關(guān)系中尋求什么
關(guān)聯(lián)性达罗、因果性坝撑、分布、交疊等粮揉,通過展現(xiàn)的圖表發(fā)現(xiàn)關(guān)系和意義
6.2 關(guān)聯(lián)性
關(guān)聯(lián)性和因果性的區(qū)別绍载,關(guān)聯(lián)性可以幫助我們根據(jù)某一已知指標(biāo)預(yù)測另一指標(biāo)
散點(diǎn)圖:
- x 軸不僅可以是時(shí)間
- (x, y) 坐標(biāo),擬合曲線
- 正相關(guān)滔蝉、負(fù)相關(guān)、不相關(guān)
- 示例:美國各州謀殺率和入市盜竊率的關(guān)系
散點(diǎn)圖矩陣:
- 繪制出每一種可能的配對塔沃,以盡可能的發(fā)現(xiàn)關(guān)系
- 削弱雜亂感蝠引,強(qiáng)調(diào)重要內(nèi)容
- 示例:7 個(gè)類型的犯罪率之間的關(guān)系
氣泡圖:
- 三個(gè)維度:x阳谍、y、氣泡面積
- 示例:美國各州謀殺率和入市盜竊率的關(guān)系螃概,加上各州人口作為第三維度
6.3 分布
莖葉圖:
- 一種古老的表示分布的圖表
- 基礎(chǔ)性數(shù)字位于左側(cè)(莖)矫夯,相關(guān)數(shù)字依次排列在右側(cè)(葉)
- 示例:世界各國出生率分布圖
直方圖:
- 柱形的高度表示頻率,寬度表現(xiàn)數(shù)值軸上某個(gè)值域
- 水平軸和垂直軸都是連續(xù)的
- 合適的分段數(shù)量
- 示例:世界各國出生率分布圖
密度圖:
- 用曲線代替柱形吊洼,曲線下面積為 1
- 示例:世界各國出生率分布圖
6.4 對照和比較
直方圖矩陣:
- 示例:過去幾十年出生率的分布變化
- 示例:過去幾年家庭電視尺寸的分布變化
系列組圖:
- 將大量小圖標(biāo)歸于一起的技巧
- 方便多個(gè)群組和分類之間及其內(nèi)部比較
- 示例:三部曲系列影片的評價(jià)趨勢
6.5 小結(jié)
如何在多個(gè)變量中找尋關(guān)聯(lián)性
第七章 發(fā)現(xiàn)差異
如何從全體中找出滿足多種標(biāo)準(zhǔn)的集合训貌,以及利用常識(shí)找出異常值
7.1 在差異中尋求什么
每一個(gè)變量間的差異,所有變量間的差異冒窍,相似性和背后的關(guān)聯(lián)性
7.2 在多個(gè)變量間比較
先一次性觀察所有數(shù)據(jù)
熱點(diǎn)圖:
- 每一列代表該對象的一個(gè)變量
- 每一行表示一個(gè)對象或觀察角度
- 每一個(gè)單元格根據(jù)顏色表現(xiàn)數(shù)值
- 示例:NBA 球員的數(shù)據(jù)統(tǒng)計(jì)
臉譜圖:
- 將多個(gè)變量一次性展現(xiàn)在人臉的各個(gè)部位上
- 依據(jù)人們對人的面部特征的敏感性
- 面部:整體表現(xiàn)某個(gè)對象
- 特征:頭發(fā)高度递沪、眼鏡大小、嘴角曲線等表現(xiàn)代表的數(shù)值
- 相似的臉 -> 相似的數(shù)據(jù)特征
- 提供充分的圖表描述
- 示例:NBA 球員的數(shù)據(jù)統(tǒng)計(jì)
星圖(雷達(dá)圖综液、蜘蛛圖):
- 通過形狀來表現(xiàn)多變量數(shù)據(jù)的特征
- 到中心的長度代表一個(gè)變量的值
- 鏈接各端點(diǎn)以方便表現(xiàn)變量之間的關(guān)系
- 星圖矩陣
- 示例:美國各州犯罪率
- 變體:
- 所有數(shù)據(jù)限制在圓形上半部分
- 南丁格爾圖(極坐標(biāo)區(qū)圖):各扇形的長度款慨、顏色
平行坐標(biāo)圖:
- 描述群組或各變量之間的關(guān)系
- 各個(gè)變量是一條軸,平行放置
- 每個(gè)對象是一條線谬莹,可在多個(gè)變量間尋找共同的變化趨勢
- 示例:美國各州 SAT 得分
7.3 減少維度
多維量法檩奠,根據(jù)某些標(biāo)準(zhǔn)將對象劃分為不同的群集
- 將一個(gè)對象的各項(xiàng)指標(biāo)轉(zhuǎn)換為距離,分布到 x - y 坐標(biāo)軸上
- 相似的對象距離近附帽,形成各個(gè)集群
- “基于模型聚類”
7.4 尋找異常值
圖表 + 常識(shí) + 數(shù)據(jù)的上下文
7.5 小結(jié)
入手點(diǎn):一次性展現(xiàn)所有數(shù)據(jù)埠戳,將范圍縮小到令人感興趣的點(diǎn)
第八章 有關(guān)空間關(guān)系的可視化
8.1 在空間中尋求什么
x、y蕉扮、時(shí)間維度
8.2 具體位置
帶經(jīng)緯度點(diǎn)的地圖:
- 示例:好市多店鋪在美國的分布
帶有線的地圖:
- 示例:位置追蹤軌跡整胃、與世界各地連接線
帶有氣泡的地圖:
- 氣泡的面積 -> 數(shù)值
- 示例:全球?yàn)槌赡耆松?/li>
8.3 地區(qū)
等值區(qū)域圖:
- 各個(gè)地區(qū)根據(jù)顏色標(biāo)尺著色
- 示例:美國各縣的失業(yè)率
- 示例:各國獲得安全飲用水源的城市居民百分比
8.4 跨越空間和時(shí)間
加時(shí)間維度的系列組圖:
- 示例:2004 - 2006 全美各縣失業(yè)率的變化
表現(xiàn)差額的地圖:
- 示例:2005 - 2009 全球城市人口的變化
動(dòng)畫地圖:
- 直觀,有機(jī)展現(xiàn)變化
- 示例:1962 - 2010 沃爾瑪?shù)脑鲩L情況
8.5 小結(jié)
- 處理維度
- 直觀性慢显、更豐富的形式
- 處理空間數(shù)據(jù)時(shí)有很多的可能性
第九章 有目的的設(shè)計(jì)
降低理解門檻
9.1 讓自己作好準(zhǔn)備
- 了解數(shù)據(jù)爪模,上下文背景
9.2 讓讀者作好準(zhǔn)備
- 假設(shè)讀者都是盲目的,不要假設(shè)讀者可以發(fā)現(xiàn)所有細(xì)節(jié)
- 解釋荚藻、描述
9.3 視覺提示
- 顏色
- 幾何形狀
- 可視化就是將數(shù)據(jù)(數(shù)字屋灌、文本、類別等)轉(zhuǎn)換為視覺元素应狱,選擇合適的視覺元素
9.4 好的可視化
- 設(shè)計(jì)圖表的目的
- 想將什么樣的故事
- 打算跟誰講
9.5 小結(jié)
數(shù)據(jù) + 可視化方法