# 數(shù)據(jù)分析50圖(一) —— 散點(diǎn)圖

前言

華羅庚說過

數(shù)缺形時(shí)少直觀,形少數(shù)時(shí)難入微.

這句話第一次聽還是初中數(shù)學(xué)老師上二次方程課時(shí)說的.

最近看到了3blue1brown對線性代數(shù)的直觀解釋感覺豁然開朗,于是我又撿起了兒時(shí)對美妙數(shù)學(xué)的興趣. 發(fā)現(xiàn)一個(gè)博客,數(shù)據(jù)可視化很好的例子,決定花些時(shí)間和大家一起解讀一下

例程來自:https://www.machinelearningplus.com/plots/matplotlib-histogram-python-examples//

感謝b站UP "菜菜TsaiTsai" 分享這個(gè)博客.

正式開始“50圖”的學(xué)習(xí)另玖。首先的一個(gè)系列 <u>關(guān)聯(lián)圖</u> 這通常能告訴我們幾個(gè)事物之間的聯(lián)系煎楣。

例1

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# Import dataset 
midwest = pd.read_csv("midwest_filter.csv")

midwest.head()
# Prepare Data 
# Create as many colors as there are unique midwest['category']
categories = np.unique(midwest['category'])
#色譜
colors = [plt.cm.tab10(i/float(len(categories)-1)) for i in range(len(categories))] 

# Draw Plot for Each Category
plt.figure(figsize=(16, 10), dpi= 80, facecolor='w', edgecolor='k')

for i, category in enumerate(categories):
    plt.scatter('area', 'poptotal', 
                data=midwest.loc[midwest.category==category, :], 
                s=20, c=colors[i], label=str(category))

# Decorations
plt.gca().set(xlim=(0.0, 0.1), ylim=(0, 90000),
              xlabel='Area', ylabel='Population')

plt.xticks(fontsize=12); plt.yticks(fontsize=12) # 返回坐標(biāo)和 標(biāo)簽
plt.title("Scatterplot of Midwest Area vs Population", fontsize=22)
plt.legend(fontsize=12)    
plt.show()  

解析

解析下代碼流程。

  1. 目的贞铣,畫出不同地區(qū)人口和地區(qū)面積的點(diǎn)圖部翘,y方向表示人口增長方向短纵,x方向表示面積增長方向
  2. 導(dǎo)入數(shù)據(jù)
  3. 編碼 要區(qū)分的目標(biāo) 這里是category 不同的地區(qū)
  4. 繪畫杆融,這里使用將每個(gè)不同category 對應(yīng)不同的色點(diǎn)集合
  5. 增加一些描述桑阶,比如坐標(biāo)軸的名字畅涂,和legend鱼填,就是圖右上方的標(biāo)簽條

方法參數(shù)解釋

  • 數(shù)據(jù)下載 pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/midwest_filter.csv")
  • cm.tab10() colormap
  • plt.scatter() 散點(diǎn)繪制方法
  • 必要的 data =midwest.loc[midwest.category==category, :] 表示 篩選行中category 的 所有數(shù)據(jù)
  • loc(),有必要說明毅戈,在pandas 中的常用函數(shù)苹丸。他的底層邏輯是用一個(gè)符合條件的 0,1 矩陣與原矩陣相與從而消掉不合條件的行列苇经。

這里我鼓勵(lì)你動(dòng)手嘗試并觀察這個(gè)函數(shù)如何給你想要行列結(jié)果

data = [[1,2,3],[4,5,6]]

index = ['a','b']

columns = ['c','d','e']

df = pd.DataFrame(data=data, index=index, columns=columns)

'''

    c  d  e

a  1  2  3

b  4  5  6

'''

print df.loc['a']
  • plt.legend(fontsize=12) 右邊邊標(biāo)簽 還有些其他的畫布設(shè)置能讓圖標(biāo)更容易被讀懂赘理。

圖像

1_Scatterplot_Matplotlib-min-1024x640.png

應(yīng)用

分布圖的優(yōu)勢在于讓我們發(fā)現(xiàn)某種密度,這種密度可能就是字面上密度扇单,還可能是一種概率密度商模。盡管上面的圖并看不出太多的區(qū)域面積與人口數(shù)量有什么必然的關(guān)系。但是可以得出一點(diǎn)蜘澜,研究左下方那一塊密集的小區(qū)域比研究整個(gè)地域來個(gè)更加有性價(jià)比施流,不是嗎?

下期預(yù)告

例2 氣泡圖 ——更多的關(guān)系等待發(fā)現(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鄙信,一起剝皮案震驚了整個(gè)濱河市瞪醋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌装诡,老刑警劉巖银受,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異鸦采,居然都是意外死亡宾巍,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門渔伯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來顶霞,“玉大人,你說我怎么就攤上這事锣吼⊙』耄” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵吐限,是天一觀的道長鲜侥。 經(jīng)常有香客問我褂始,道長诸典,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮狐粱,結(jié)果婚禮上舀寓,老公的妹妹穿的比我還像新娘。我一直安慰自己肌蜻,他們只是感情好互墓,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蒋搜,像睡著了一般篡撵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上豆挽,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天育谬,我揣著相機(jī)與錄音,去河邊找鬼帮哈。 笑死膛檀,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的娘侍。 我是一名探鬼主播咖刃,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼憾筏!你這毒婦竟也來了嚎杨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤氧腰,失蹤者是張志新(化名)和其女友劉穎磕潮,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體容贝,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡自脯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了斤富。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片膏潮。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖满力,靈堂內(nèi)的尸體忽然破棺而出焕参,到底是詐尸還是另有隱情,我是刑警寧澤油额,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布叠纷,位于F島的核電站,受9級特大地震影響潦嘶,放射性物質(zhì)發(fā)生泄漏涩嚣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望航厚。 院中可真熱鬧顷歌,春花似錦、人聲如沸幔睬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽麻顶。三九已至赦抖,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間辅肾,已是汗流浹背摹芙。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留宛瞄,地道東北人浮禾。 一個(gè)月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像份汗,于是被迫代替她去往敵國和親盈电。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • (一)機(jī)器學(xué)習(xí)的工作方式1.選擇數(shù)據(jù):將原始數(shù)據(jù)分成三組:訓(xùn)練數(shù)據(jù)杯活、驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)匆帚;2.?dāng)?shù)據(jù)建模:使用訓(xùn)練數(shù)據(jù)...
    季嘉聊跨境閱讀 626評論 0 0
  • Wide & Deep Learning for Recommender Systems(Google&Faceb...
    jessica涯閱讀 599評論 0 0
  • public class JDBCDemo1 { public static void main(String[]...
    沫忘丶閱讀 186評論 0 0
  • 當(dāng)溫飽已不是問題,旁钧,焦慮卻成為現(xiàn)在人的通病吸重。 尤其是有著固定薪金的上班族,看上去光鮮亮麗歪今,到月底發(fā)工資時(shí)很多人都成...
    樊俊宏閱讀 480評論 0 7
  • 2019.2.17 今日在家備課主題: 1.工作帶給我的意義嚎幸? 2.這個(gè)學(xué)期我要在哪些方面做提升? 3.這個(gè)學(xué)期寄猩,...
    hutaoker閱讀 210評論 0 0