特別聲明:本文僅興趣交流,感興趣的水友也可以在下面留言贩耐,轉(zhuǎn)載請(qǐng)聯(lián)系作者。
-
數(shù)據(jù)介紹
數(shù)據(jù)來(lái)源:Kaggle,red-wine-quality-cortez-et-al-2009.zip
數(shù)據(jù)指標(biāo):酸度肖粮、甜度等成分指標(biāo)為連續(xù)性變量,質(zhì)量為離散變量(由多個(gè)專(zhuān)家給出的品質(zhì)等級(jí)0~10)
{'fixed acidity': '固定酸',
'volatile acidity': '揮發(fā)性酸',
'citric acid': '檸檬酸',
'residual sugar': '殘留糖分',
'chlorides': '氯化物',
'free sulfur dioxide': '游離二氧化硫',
'total sulfur dioxide': '總二氧化硫',
'density': '濃厚度',
'pH': '氫離子濃度',
'sulphates': '硫酸鹽',
'alcohol': '酒精度',
'quality': '質(zhì)量'}
-
數(shù)據(jù)轉(zhuǎn)換
先看一下前十行數(shù)據(jù)source_data.head(10)
將字段轉(zhuǎn)換成中文source_data.rename(columns=col_map, inplace=True)
快速進(jìn)行描述性統(tǒng)計(jì)source_data.describe()
-
圖例展示
數(shù)據(jù)分布情況sns.distplot(source_data['質(zhì)量'], color="k",bins=6,kde= False,fit=norm)
數(shù)據(jù)為正態(tài)分布
各指標(biāo)行列轉(zhuǎn)換尔苦, 熱圖展示
# 皮爾森相關(guān)系數(shù) 前提是要數(shù)據(jù)正態(tài)分布
# abs(r) < 0.3 不相關(guān)
# 0 <= abs(r) <= 0.3 低相關(guān)
# 0.3 < abs(r) <= 0.8 中相關(guān)
# 0.8 < abs(r) <= 1 高相關(guān)
hq_data_corr = hq_data.corr(method = 'pearson', min_periods = 1)
mask = np.zeros_like(hq_data_corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(hq_data_corr,
cmap= 'RdYlGn_r',
linewidths = 0.05,
mask = mask,
alpha = 0.95,
annot = True,
center=0,
fmt = '.2f',
vmin = -1,
vmax = 1)
其中大紅色為正相關(guān)系數(shù)涩馆,綠色為負(fù)相關(guān)性系數(shù),顏色越深表面相關(guān)性越高
以各等級(jí)紅酒分類(lèi)允坚,并相關(guān)性圖例展示
sns.pairplot(hq_data
,vars = temp_cols
,kind="reg" # 回歸線(xiàn)
,diag_kind="kde" # 對(duì)角分布
,hue="quality"
,palette='mako',
)
-
最后總結(jié)
1魂那、市場(chǎng)質(zhì)量特別好的紅酒和質(zhì)量特比差的紅酒數(shù)量都相對(duì)較少,更多的是質(zhì)量中等的紅酒稠项。不同質(zhì)量的紅酒基本滿(mǎn)足正態(tài)分布涯雅。
2、紅葡萄酒的檸檬酸與固定酸和揮發(fā)性酸相關(guān)性較強(qiáng)展运,檸檬酸與固定酸為同向變量斩芭,和揮發(fā)性酸為反向變量。
3乐疆、質(zhì)量越高的紅酒划乖,其酒中揮發(fā)酸的含量越低。
4挤土、葡萄酒的酒精濃度和酒的密度成強(qiáng)負(fù)相關(guān)關(guān)系琴庵。
5、隨著pH值的降低,檸檬酸的酸性逐漸增強(qiáng)迷殿。
可挖掘的信息還有很多有待大家慢慢挖掘儿礼,如果喜歡請(qǐng)點(diǎn)贊關(guān)注,謝謝支持~庆寺!