《鮮活的數(shù)據(jù)》- 閱讀索引

簡單概括每一節(jié)的表達(dá)核心占拍,注重整本書的結(jié)構(gòu)

第一章 用數(shù)據(jù)講故事

1.1 不只是數(shù)字

可視化在新聞奶浦、藝術(shù)性兄墅、娛樂性、引入注目方面的例子澳叉。讓數(shù)據(jù)得以被分析隙咸、傳達(dá)情感等。

1.2 我們要尋求什么

關(guān)注處理數(shù)據(jù)的模式成洗、數(shù)據(jù)間的相互關(guān)系以及異常數(shù)據(jù)五督。

1.3 設(shè)計(jì)

設(shè)計(jì)圖表時(shí)的注意點(diǎn):

  • 解釋性的內(nèi)容:標(biāo)簽、說明文字瓶殃、圖解等
  • 標(biāo)注坐標(biāo)軸
  • 正確的幾何圖形
  • 提供數(shù)據(jù)來源
  • 考慮需求場景

1.4 小結(jié)

以實(shí)際問題為出發(fā)點(diǎn)充包,保證數(shù)據(jù)正確性,把握圖表的設(shè)計(jì)意圖和受眾群體遥椿。


第二章 處理數(shù)據(jù)

2.1 收集數(shù)據(jù)

介紹了幾個(gè)數(shù)據(jù)來源:

  • 他人提供
  • 搜索引擎
  • 專業(yè)網(wǎng)站等

提供了 python 實(shí)現(xiàn)網(wǎng)頁爬蟲的示例基矮。

2.2 設(shè)置數(shù)據(jù)的格式

數(shù)據(jù)的三種格式:

  • 帶分隔符的文本
  • JSON
  • XML

處理數(shù)據(jù)格式的幾種工具。

用代碼處理數(shù)據(jù)格式的示例冠场。

2.3 小結(jié)

如何獲取數(shù)據(jù)并處理數(shù)據(jù)格式家浇。


第三章 選擇可視化工具

3.1 開箱即用的可視化工具

excel、google doc碴裙、tableau 等

3.2 編程工具

python钢悲、processing点额、javascript、R 等

3.3 繪圖軟件

Adobe Illustrator莺琳、Inkscape 等

3.4 地圖繪制工具

google 地圖还棱、polymaps、R 等

3.5 衡量各種選項(xiàng)

按需

3.6 小結(jié)

可視化工具介紹


第四章 有關(guān)時(shí)間趨勢的可視化

4.1 在時(shí)間中尋求什么

趨勢性芦昔、全局和細(xì)節(jié)

4.2 時(shí)間中的離散點(diǎn)

柱形圖:

  • 可以表現(xiàn)離散時(shí)間
  • 柱形高度是其體現(xiàn)數(shù)值的視覺線索诱贿,柱形的寬度和間隔不代表任何信息
  • 柱形圖的數(shù)值軸必須從 0 開始,否則難以從視覺上比較柱形的高度
  • 示例:歷年熱狗大胃王比賽成績

堆疊柱形圖:

  • 柱形高度代表總數(shù)值咕缎,內(nèi)部柱形高度代表子類別的數(shù)值
  • 示例:歷年熱狗大胃王比賽前三甲成績

散點(diǎn)圖:

  • 可以表示離散時(shí)間
  • 用點(diǎn)的位置作為數(shù)值的視覺線索珠十,數(shù)值軸不必從 0 開始
  • 示例:網(wǎng)站訂閱者數(shù)量

4.3 延續(xù)性數(shù)據(jù)

延續(xù)性數(shù)據(jù)源也是離散數(shù)據(jù)集,表現(xiàn)的是不斷變化的現(xiàn)象凭豪。

折線圖:

  • 缺陷是必須要表現(xiàn)兩點(diǎn)間的穩(wěn)定變化

階梯圖:

  • 適用于躍變的情況
  • 示例:美國郵費(fèi)變化情況

擬合線:

  • 幫助在雜亂的數(shù)據(jù)中表現(xiàn)出趨勢
  • 常用的有局部加權(quán)散點(diǎn)平滑法(LOESS)
  • 示例:歷年美國失業(yè)率

4.4 小結(jié)

  • 直觀體現(xiàn)出事物的變化趨勢
  • 引導(dǎo)某個(gè)時(shí)間段變化的原因
  • 引導(dǎo)關(guān)注值得注意的部分

第五章 有關(guān)比例的可視化

不同于時(shí)間序列數(shù)據(jù)中以時(shí)間為分組依據(jù)焙蹭,在比例數(shù)據(jù)中以樣本空間作為分組。

5.1 在比例中尋求什么

比例的分配嫂伞。

5.2 整體中的部分

既希望呈現(xiàn)各部分和其他部分的相對關(guān)系孔厉,又希望保持整體上的感覺。

餅圖:

  • 不精確帖努,角度不易衡量
  • 不要分成太多塊
  • 顏色也可以作為視覺線索撰豺,深淺代表重點(diǎn)的強(qiáng)弱
  • 示例:用戶對數(shù)據(jù)各相關(guān)領(lǐng)域感興趣的情況

面包圈圖:

  • 只能通過弧形的長度來衡量數(shù)值
  • 中間可以放標(biāo)簽或其他內(nèi)容
  • 也不適合較多分類
  • 示例:用戶對數(shù)據(jù)各相關(guān)領(lǐng)域感興趣的情況

堆疊柱形圖:

  • 多餅圖與堆疊柱形圖的案例:與角度相比,人們對柱形更敏感
  • 示例:奧巴馬在各問題上的支持率

板塊層級圖(treemap):

  • 基于面積的可視化方式拼余,通過每一個(gè)板塊的尺寸大小度量
  • 適合樹狀結(jié)構(gòu)的數(shù)據(jù)(如磁盤使用情況)
  • 示例:網(wǎng)站上各文章的受歡迎程度

5.3 帶時(shí)間屬性的比例

堆疊面積圖:

  • 堆疊總高度表示某一時(shí)刻總量污桦,內(nèi)部堆疊高度表示某一時(shí)刻某一類別的數(shù)值
  • 水平軸表示時(shí)間,多個(gè)時(shí)間序列圖表堆疊
  • 不適用于分類多的情況
  • 每一層的變化趨勢難以識(shí)別
  • 示例:歷年各年齡段人群占總?cè)丝诘谋壤准唷v年消費(fèi)開支的比例

時(shí)間序列圖:

  • 數(shù)值軸為百分比
  • 解決了堆疊面積圖難以識(shí)別每一層的變化的問題
  • 但失去了整體性和比例分布信息
  • 示例:歷年各年齡段人群占總?cè)丝诘谋壤?/li>

5.4 小結(jié)

比例分布數(shù)據(jù)主要特點(diǎn)在于每個(gè)單獨(dú)的數(shù)值有意義凡橱,各部分相加的子集和總和也有意義,可視化需要體現(xiàn)出這些方面亭姥。

  • 少量數(shù)值:餅圖稼钩、面包圈圖
  • 多個(gè)類別的多個(gè)數(shù)值:堆疊柱形圖(非多個(gè)餅圖)
  • 時(shí)間信息:堆疊面積圖、時(shí)間序列圖

第六章 有關(guān)關(guān)系的可視化

如何通過可視化的方法挖掘出并強(qiáng)調(diào)這些關(guān)系

6.1 在關(guān)系中尋求什么

關(guān)聯(lián)性达罗、因果性坝撑、分布、交疊等粮揉,通過展現(xiàn)的圖表發(fā)現(xiàn)關(guān)系和意義

6.2 關(guān)聯(lián)性

關(guān)聯(lián)性和因果性的區(qū)別绍载,關(guān)聯(lián)性可以幫助我們根據(jù)某一已知指標(biāo)預(yù)測另一指標(biāo)

散點(diǎn)圖:

  • x 軸不僅可以是時(shí)間
  • (x, y) 坐標(biāo),擬合曲線
  • 正相關(guān)滔蝉、負(fù)相關(guān)、不相關(guān)
  • 示例:美國各州謀殺率和入市盜竊率的關(guān)系

散點(diǎn)圖矩陣:

  • 繪制出每一種可能的配對塔沃,以盡可能的發(fā)現(xiàn)關(guān)系
  • 削弱雜亂感蝠引,強(qiáng)調(diào)重要內(nèi)容
  • 示例:7 個(gè)類型的犯罪率之間的關(guān)系

氣泡圖:

  • 三個(gè)維度:x阳谍、y、氣泡面積
  • 示例:美國各州謀殺率和入市盜竊率的關(guān)系螃概,加上各州人口作為第三維度

6.3 分布

莖葉圖:

  • 一種古老的表示分布的圖表
  • 基礎(chǔ)性數(shù)字位于左側(cè)(莖)矫夯,相關(guān)數(shù)字依次排列在右側(cè)(葉)
  • 示例:世界各國出生率分布圖

直方圖:

  • 柱形的高度表示頻率,寬度表現(xiàn)數(shù)值軸上某個(gè)值域
  • 水平軸和垂直軸都是連續(xù)的
  • 合適的分段數(shù)量
  • 示例:世界各國出生率分布圖

密度圖:

  • 用曲線代替柱形吊洼,曲線下面積為 1
  • 示例:世界各國出生率分布圖

6.4 對照和比較

直方圖矩陣:

  • 示例:過去幾十年出生率的分布變化
  • 示例:過去幾年家庭電視尺寸的分布變化

系列組圖:

  • 將大量小圖標(biāo)歸于一起的技巧
  • 方便多個(gè)群組和分類之間及其內(nèi)部比較
  • 示例:三部曲系列影片的評價(jià)趨勢

6.5 小結(jié)

如何在多個(gè)變量中找尋關(guān)聯(lián)性


第七章 發(fā)現(xiàn)差異

如何從全體中找出滿足多種標(biāo)準(zhǔn)的集合训貌,以及利用常識(shí)找出異常值

7.1 在差異中尋求什么

每一個(gè)變量間的差異,所有變量間的差異冒窍,相似性和背后的關(guān)聯(lián)性

7.2 在多個(gè)變量間比較

先一次性觀察所有數(shù)據(jù)

熱點(diǎn)圖:

  • 每一列代表該對象的一個(gè)變量
  • 每一行表示一個(gè)對象或觀察角度
  • 每一個(gè)單元格根據(jù)顏色表現(xiàn)數(shù)值
  • 示例:NBA 球員的數(shù)據(jù)統(tǒng)計(jì)

臉譜圖:

  • 將多個(gè)變量一次性展現(xiàn)在人臉的各個(gè)部位上
  • 依據(jù)人們對人的面部特征的敏感性
  • 面部:整體表現(xiàn)某個(gè)對象
  • 特征:頭發(fā)高度递沪、眼鏡大小、嘴角曲線等表現(xiàn)代表的數(shù)值
  • 相似的臉 -> 相似的數(shù)據(jù)特征
  • 提供充分的圖表描述
  • 示例:NBA 球員的數(shù)據(jù)統(tǒng)計(jì)

星圖(雷達(dá)圖综液、蜘蛛圖):

  • 通過形狀來表現(xiàn)多變量數(shù)據(jù)的特征
  • 到中心的長度代表一個(gè)變量的值
  • 鏈接各端點(diǎn)以方便表現(xiàn)變量之間的關(guān)系
  • 星圖矩陣
  • 示例:美國各州犯罪率
  • 變體:
    • 所有數(shù)據(jù)限制在圓形上半部分
    • 南丁格爾圖(極坐標(biāo)區(qū)圖):各扇形的長度款慨、顏色

平行坐標(biāo)圖:

  • 描述群組或各變量之間的關(guān)系
  • 各個(gè)變量是一條軸,平行放置
  • 每個(gè)對象是一條線谬莹,可在多個(gè)變量間尋找共同的變化趨勢
  • 示例:美國各州 SAT 得分

7.3 減少維度

多維量法檩奠,根據(jù)某些標(biāo)準(zhǔn)將對象劃分為不同的群集

  • 將一個(gè)對象的各項(xiàng)指標(biāo)轉(zhuǎn)換為距離,分布到 x - y 坐標(biāo)軸上
  • 相似的對象距離近附帽,形成各個(gè)集群
  • “基于模型聚類”

7.4 尋找異常值

圖表 + 常識(shí) + 數(shù)據(jù)的上下文

7.5 小結(jié)

入手點(diǎn):一次性展現(xiàn)所有數(shù)據(jù)埠戳,將范圍縮小到令人感興趣的點(diǎn)


第八章 有關(guān)空間關(guān)系的可視化

8.1 在空間中尋求什么

x、y蕉扮、時(shí)間維度

8.2 具體位置

帶經(jīng)緯度點(diǎn)的地圖:

  • 示例:好市多店鋪在美國的分布

帶有線的地圖:

  • 示例:位置追蹤軌跡整胃、與世界各地連接線

帶有氣泡的地圖:

  • 氣泡的面積 -> 數(shù)值
  • 示例:全球?yàn)槌赡耆松?/li>

8.3 地區(qū)

等值區(qū)域圖:

  • 各個(gè)地區(qū)根據(jù)顏色標(biāo)尺著色
  • 示例:美國各縣的失業(yè)率
  • 示例:各國獲得安全飲用水源的城市居民百分比

8.4 跨越空間和時(shí)間

加時(shí)間維度的系列組圖:

  • 示例:2004 - 2006 全美各縣失業(yè)率的變化

表現(xiàn)差額的地圖:

  • 示例:2005 - 2009 全球城市人口的變化

動(dòng)畫地圖:

  • 直觀,有機(jī)展現(xiàn)變化
  • 示例:1962 - 2010 沃爾瑪?shù)脑鲩L情況

8.5 小結(jié)

  • 處理維度
  • 直觀性慢显、更豐富的形式
  • 處理空間數(shù)據(jù)時(shí)有很多的可能性

第九章 有目的的設(shè)計(jì)

降低理解門檻

9.1 讓自己作好準(zhǔn)備

  • 了解數(shù)據(jù)爪模,上下文背景

9.2 讓讀者作好準(zhǔn)備

  • 假設(shè)讀者都是盲目的,不要假設(shè)讀者可以發(fā)現(xiàn)所有細(xì)節(jié)
  • 解釋荚藻、描述

9.3 視覺提示

  • 顏色
  • 幾何形狀
  • 可視化就是將數(shù)據(jù)(數(shù)字屋灌、文本、類別等)轉(zhuǎn)換為視覺元素应狱,選擇合適的視覺元素

9.4 好的可視化

  • 設(shè)計(jì)圖表的目的
  • 想將什么樣的故事
  • 打算跟誰講

9.5 小結(jié)

數(shù)據(jù) + 可視化方法

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末共郭,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子疾呻,更是在濱河造成了極大的恐慌除嘹,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件岸蜗,死亡現(xiàn)場離奇詭異尉咕,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)璃岳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門年缎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來悔捶,“玉大人,你說我怎么就攤上這事单芜⊥筛茫” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵洲鸠,是天一觀的道長堂淡。 經(jīng)常有香客問我,道長扒腕,這世上最難降的妖魔是什么绢淀? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮袜匿,結(jié)果婚禮上更啄,老公的妹妹穿的比我還像新娘。我一直安慰自己居灯,他們只是感情好祭务,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著怪嫌,像睡著了一般义锥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上岩灭,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天拌倍,我揣著相機(jī)與錄音,去河邊找鬼噪径。 笑死柱恤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的找爱。 我是一名探鬼主播梗顺,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼车摄!你這毒婦竟也來了寺谤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤吮播,失蹤者是張志新(化名)和其女友劉穎变屁,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體意狠,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡粟关,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了环戈。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片闷板。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡获列,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蛔垢,到底是詐尸還是另有隱情,我是刑警寧澤迫悠,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布鹏漆,位于F島的核電站,受9級特大地震影響创泄,放射性物質(zhì)發(fā)生泄漏艺玲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一鞠抑、第九天 我趴在偏房一處隱蔽的房頂上張望饭聚。 院中可真熱鬧,春花似錦搁拙、人聲如沸秒梳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽酪碘。三九已至,卻和暖如春盐茎,著一層夾襖步出監(jiān)牢的瞬間兴垦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工字柠, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留探越,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓窑业,卻偏偏與公主長得像钦幔,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子数冬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容