前言
A change of perspective is worth 80 IQ points Alan Kay
著名計(jì)算機(jī)科學(xué)家泊窘、艾倫·凱說(shuō)過(guò)宝踪,換一個(gè)角度看問(wèn)題值80點(diǎn)智商袖牙。
本期是最后一次介紹關(guān)聯(lián)圖了。有時(shí)候我們有一堆數(shù)據(jù)卻無(wú)從下手租谈,那就來(lái)個(gè)“jojo” 方法:全部畫出來(lái)。
例9
i# Load Dataset
import seaborn as sns
import matplotlib.pyplot as plt
# Load Dataset
df = sns.load_dataset('iris')
# Plot
plt.figure(figsize=(10,8), dpi= 80)
sns.pairplot(df, kind="scatter", hue="species", plot_kws=dict(s=80, edgecolor="white", linewidth=2.5))
plt.show()
解析
看下數(shù)據(jù)表的樣子
此表記錄了3中鳶(yuan)尾花的花瓣長(zhǎng)寬商叹,萼片長(zhǎng)款,和品種只泼。
sepal_length | sepal_width | petal_length | petal_width | species | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | setosa |
1 | 4.9 | 3.0 | 1.4 | 0.2 | setosa |
2 | 4.7 | 3.2 | 1.3 | 0.2 | setosa |
3 | 4.6 | 3.1 | 1.5 | 0.2 | setosa |
4 | 5.0 | 3.6 | 1.4 | 0.2 | setosa |
代碼流程
- 載入數(shù)據(jù)
- 畫出不同品種的剖笙,花瓣、萼片長(zhǎng)寬请唱,觀察規(guī)律
方法參數(shù)解釋
sns.pairplot()
成對(duì)相關(guān)弥咪,會(huì)把表格中的特征兩兩組合畫出并且對(duì)角線上表示列不變,其他變量的分布情況十绑。
- kind 可選擇 scatter 散點(diǎn)或者reg 帶回歸線的酪夷。
- polt_kws s 點(diǎn)大小 本例中選擇kind=reg 時(shí)s無(wú)效。
- hue 不同標(biāo)簽映射到不同顏色
圖像
應(yīng)用
這是十分有用統(tǒng)計(jì)分類方法孽惰。許多物體的尺寸晚岭,或者尺寸之比會(huì)在一定范圍內(nèi)。比如人體四肢比例接近0.6勋功。對(duì)于上圖重疊區(qū)間低于置信度區(qū)間的第四列坦报,花瓣寬度就能作為很重要的分類依據(jù)。應(yīng)該讓他擁有較高的權(quán)重狂鞋。所以很多難題解決不了只是我們沒(méi)有發(fā)現(xiàn)那些關(guān)鍵的信息片择。
下期預(yù)告
誤差圖 —— 讓程度看的見(jiàn)
例程來(lái)自:https://www.machinelearningplus.com/plots/matplotlib-histogram-python-examples//
感謝b站UP "菜菜TsaiTsai" 分享這個(gè)博客.
例8
抱歉,之前還有一個(gè)例8骚揍,因?yàn)闆](méi)找到合適的例子字管,所以跳過(guò)了,這里為大家補(bǔ)上信不。上面畫出4x4的圖像但是多數(shù)時(shí)候我們會(huì)有十幾個(gè)變量嘲叔,這樣就畫一個(gè)20X20的圖像顯然不太合適。那怎么辦抽活?
# Import Dataset
df = sns.load_dataset('iris')
# Plot
plt.figure(figsize=(12,10), dpi= 80)
sns.heatmap(df.corr(), xticklabels=df.corr().columns, yticklabels=df.corr().columns, cmap='RdYlGn', center=0, annot=True)
# Decorations
plt.title('Correlogram of mtcars', fontsize=22)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.show()
解析
方法參數(shù)解釋
sns.heatmap()
繪制熱力圖硫戈,用顏色表示程度大小
- df.corr() 計(jì)算兩兩之間的相關(guān)系數(shù) 相關(guān)系數(shù)概念
圖像
應(yīng)用
如果需要計(jì)算某一個(gè)變量與其他變量的關(guān)系,那么選取一列下硕。
df.corr(df["列名"])
我們實(shí)際生活中一個(gè)產(chǎn)品的參數(shù)會(huì)有幾十個(gè)丁逝,全部按鳶尾花那樣畫出來(lái)圖形就太小了,不容易看梭姓。這時(shí)熱圖和相關(guān)系數(shù)就可以幫我快速找出關(guān)心的幾個(gè)特征霜幼。上面圖看到深綠色的花瓣長(zhǎng)、寬密切相關(guān)誉尖,這也與例九的圖像吻合罪既。仔細(xì)觀察下這2幅圖吧。