在對數據進行質量分析以后,就需要通過繪制圖表脑融,計算某些特征量等手段進行數據的特征分析疮装。
1. 數據分布分析
可以揭示出數據的分布特征和分布類型缘琅,對于定量數據,要查看分部形式是對稱還是不對稱廓推,繪制頻率分布表刷袍,直方圖,莖葉圖進行只管分析樊展。對于定性分類數據呻纹,可以用餅狀圖,條形圖专缠。
對定量數據雷酪,繪制其頻率分布直方圖,用plt繪制時涝婉,要指定bins哥力,即繪制的組數。
data.hist(bins=30)
可以看出這個數據集大體上服從正態(tài)分布
對于定性數據的分布分析嘁圈,主要采用餅圖和條形圖來判斷省骂。
2. 屬性之間的對比分析
對比分析是指把兩個相互聯(lián)系的指標進行比較,查看各種關系是否協(xié)調最住,比如指標間的橫縱向比較,時間序列的比較分析等怠惶。
在對比分析中涨缚,選擇合適的對比標準是非常關鍵的步驟。
這個一般用圖表來看數據的變化情況。
3. 統(tǒng)計量分析
用統(tǒng)計指標進行統(tǒng)計分析脓魏,主要有兩個方面:集中趨勢兰吟,離中趨勢。
集中趨勢就是平均水平茂翔,其指標是對個體集中趨勢的度量混蔼,常用均值和中位數。
而離中趨勢指的是個體離開平均水平的度量珊燎,使用較廣泛的是標準差(方差)惭嚣,四分位間距。
3.1 集中趨勢
均值:即平均值悔政。還有加權平均值晚吞,反應的是均值中不同成分所占的不同重要程度。為數據集中的每一個xi都賦予權重wi谋国,就得到了加權平均值槽地。
但均值的主要問題是對極端值很敏感,如果數據中存在極端值或者數據是偏態(tài)分布芦瘾,那么均值就不能很好的度量數據的集中趨勢捌蚊。此時可以用截斷均值或者中位數來度量
中位數:間一組觀察值按小到大排列,位于中間的那個數就是中位數近弟,所以在全部數據中逢勾,小于和大于中位數的數據個數相等。
3.2 離中趨勢
極差:對數據集的極端值非常敏感藐吮,且忽略了位于最大值和最小值之間的數據分布的情況溺拱。
標準差:度量數據偏離均值的程度。
變異系數:度量的是標準差相對于均值的離中趨勢谣辞。
四分位數間距:上四分位數與下四分位數之差迫摔,其間包含了全部觀察值的一半,其值越大泥从,說明數據的變異程度越大句占,反之,說明變異程度越小躯嫉。
4. 周期性分析
探索某個變量是否隨著時間變化而呈現(xiàn)出某種周期變化的趨勢纱烘。
比如上圖中可以看出用電量呈現(xiàn)一定的周期變化。
5. 貢獻度分析
貢獻度分析又稱為帕累托分析祈餐,原理是帕累托法則擂啥,即二八法則。如下圖:
菜品對盈利的影響中帆阳,盈利最高的7個菜品占據月盈利的85%哺壶,所以要增加前面7個菜品的成本投入,而減少A8-10的投入。
繪制這個佩雷托圖的代碼位:
import matplotlib.pyplot as plt #導入圖像庫
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標簽
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
plt.figure()
data.plot(kind='bar') # 柱狀圖
plt.ylabel('盈利(元)')
p = 1.0*data.cumsum()/data.sum() # 累計盈利百分比
p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)
# plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2"))
#添加注釋山宾,即85%處的標記至扰。這里包括了指定箭頭樣式。
plt.ylabel('盈利(比例)')
plt.show()
6. 相關性分析
分析連續(xù)變量之間線性相關程度的強弱资锰,并用適當的統(tǒng)計指標表示出來的過程叫做相關性分析敢课。
6.1 直接繪制散點圖
6.2 繪制散點圖矩陣
可以利用散點圖矩陣同時繪制各變量間的散點圖,從而快速發(fā)現(xiàn)多個變量間的主要相關性绷杜,這在進行多元線性回歸時顯得非常重要直秆。
6.3 計算相關系數
注意,相關性分析只能得到特征之間的線性相關性接剩。
為了更加準確的描述變量之間的線性相關程度切厘,可以通過計算相關系數來進行相關分析。主要有三個計算方法:Pearson相關系數懊缺,Spearman相關系數和判定系數疫稿。
Pearson線性相關系數要求連續(xù)變量的取值服從正態(tài)分布,不服從正太分布的變量鹃两,分類或等級變量之間的關聯(lián)性可用Spearman相關系數來描述遗座。
在正太分布假設下,Spearman相關系數和Pearson相關系數在效率上時等級的俊扳,而對于連續(xù)測量數據途蒋,更適合用Pearson相關系數來進行分析。
判定系數R^2, 用來衡量回歸方程對y的解釋程度馋记,取值為0-1之間号坡,越接近1表明x和y之間的相關性越強,越接近0梯醒,表明兩個變量之間幾乎沒有直線相關關系宽堆。
計算相關性在pandas中非常方便:
df.corr()會得到一個相關性df,可以直接獲取數據茸习。
參考資料:
《Python數據分析和挖掘實戰(zhàn)》張良均等