Python數據挖掘003-數據特征分析

在對數據進行質量分析以后,就需要通過繪制圖表脑融,計算某些特征量等手段進行數據的特征分析疮装。

1. 數據分布分析

可以揭示出數據的分布特征和分布類型缘琅,對于定量數據,要查看分部形式是對稱還是不對稱廓推,繪制頻率分布表刷袍,直方圖,莖葉圖進行只管分析樊展。對于定性分類數據呻纹,可以用餅狀圖,條形圖专缠。

對定量數據雷酪,繪制其頻率分布直方圖,用plt繪制時涝婉,要指定bins哥力,即繪制的組數。

data.hist(bins=30)
image.png

可以看出這個數據集大體上服從正態(tài)分布

對于定性數據的分布分析嘁圈,主要采用餅圖和條形圖來判斷省骂。

image.png

2. 屬性之間的對比分析

對比分析是指把兩個相互聯(lián)系的指標進行比較,查看各種關系是否協(xié)調最住,比如指標間的橫縱向比較,時間序列的比較分析等怠惶。

在對比分析中涨缚,選擇合適的對比標準是非常關鍵的步驟。

這個一般用圖表來看數據的變化情況。

3. 統(tǒng)計量分析

用統(tǒng)計指標進行統(tǒng)計分析脓魏,主要有兩個方面:集中趨勢兰吟,離中趨勢。

集中趨勢就是平均水平茂翔,其指標是對個體集中趨勢的度量混蔼,常用均值和中位數。

而離中趨勢指的是個體離開平均水平的度量珊燎,使用較廣泛的是標準差(方差)惭嚣,四分位間距。

3.1 集中趨勢

均值:即平均值悔政。還有加權平均值晚吞,反應的是均值中不同成分所占的不同重要程度。為數據集中的每一個xi都賦予權重wi谋国,就得到了加權平均值槽地。

但均值的主要問題是對極端值很敏感,如果數據中存在極端值或者數據是偏態(tài)分布芦瘾,那么均值就不能很好的度量數據的集中趨勢捌蚊。此時可以用截斷均值或者中位數來度量

中位數:間一組觀察值按小到大排列,位于中間的那個數就是中位數近弟,所以在全部數據中逢勾,小于和大于中位數的數據個數相等。

3.2 離中趨勢

極差:對數據集的極端值非常敏感藐吮,且忽略了位于最大值和最小值之間的數據分布的情況溺拱。

標準差:度量數據偏離均值的程度。

變異系數:度量的是標準差相對于均值的離中趨勢谣辞。

四分位數間距:上四分位數與下四分位數之差迫摔,其間包含了全部觀察值的一半,其值越大泥从,說明數據的變異程度越大句占,反之,說明變異程度越小躯嫉。

4. 周期性分析

探索某個變量是否隨著時間變化而呈現(xiàn)出某種周期變化的趨勢纱烘。

image.png

比如上圖中可以看出用電量呈現(xiàn)一定的周期變化。

5. 貢獻度分析

貢獻度分析又稱為帕累托分析祈餐,原理是帕累托法則擂啥,即二八法則。如下圖:

image.png

菜品對盈利的影響中帆阳,盈利最高的7個菜品占據月盈利的85%哺壶,所以要增加前面7個菜品的成本投入,而減少A8-10的投入。

繪制這個佩雷托圖的代碼位:


import matplotlib.pyplot as plt #導入圖像庫
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標簽
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號

plt.figure()
data.plot(kind='bar') # 柱狀圖
plt.ylabel('盈利(元)')
p = 1.0*data.cumsum()/data.sum() # 累計盈利百分比
p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2)
# plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) 
#添加注釋山宾,即85%處的標記至扰。這里包括了指定箭頭樣式。
plt.ylabel('盈利(比例)')
plt.show()

6. 相關性分析

分析連續(xù)變量之間線性相關程度的強弱资锰,并用適當的統(tǒng)計指標表示出來的過程叫做相關性分析敢课。

6.1 直接繪制散點圖

img1.PNG

6.2 繪制散點圖矩陣

可以利用散點圖矩陣同時繪制各變量間的散點圖,從而快速發(fā)現(xiàn)多個變量間的主要相關性绷杜,這在進行多元線性回歸時顯得非常重要直秆。

6.3 計算相關系數

注意,相關性分析只能得到特征之間的線性相關性接剩。

為了更加準確的描述變量之間的線性相關程度切厘,可以通過計算相關系數來進行相關分析。主要有三個計算方法:Pearson相關系數懊缺,Spearman相關系數和判定系數疫稿。

image.png

Pearson線性相關系數要求連續(xù)變量的取值服從正態(tài)分布,不服從正太分布的變量鹃两,分類或等級變量之間的關聯(lián)性可用Spearman相關系數來描述遗座。

在正太分布假設下,Spearman相關系數和Pearson相關系數在效率上時等級的俊扳,而對于連續(xù)測量數據途蒋,更適合用Pearson相關系數來進行分析。

判定系數R^2, 用來衡量回歸方程對y的解釋程度馋记,取值為0-1之間号坡,越接近1表明x和y之間的相關性越強,越接近0梯醒,表明兩個變量之間幾乎沒有直線相關關系宽堆。

計算相關性在pandas中非常方便:
df.corr()會得到一個相關性df,可以直接獲取數據茸习。

參考資料:

《Python數據分析和挖掘實戰(zhàn)》張良均等

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末畜隶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子号胚,更是在濱河造成了極大的恐慌籽慢,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猫胁,死亡現(xiàn)場離奇詭異箱亿,居然都是意外死亡,警方通過查閱死者的電腦和手機杜漠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進店門极景,熙熙樓的掌柜王于貴愁眉苦臉地迎上來察净,“玉大人驾茴,你說我怎么就攤上這事盼樟。” “怎么了锈至?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵晨缴,是天一觀的道長。 經常有香客問我峡捡,道長击碗,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任们拙,我火速辦了婚禮稍途,結果婚禮上,老公的妹妹穿的比我還像新娘砚婆。我一直安慰自己械拍,他們只是感情好,可當我...
    茶點故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布装盯。 她就那樣靜靜地躺著坷虑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪埂奈。 梳的紋絲不亂的頭發(fā)上迄损,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天,我揣著相機與錄音账磺,去河邊找鬼芹敌。 笑死,一個胖子當著我的面吹牛垮抗,可吹牛的內容都是我干的氏捞。 我是一名探鬼主播,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼借宵,長吁一口氣:“原來是場噩夢啊……” “哼幌衣!你這毒婦竟也來了?” 一聲冷哼從身側響起壤玫,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤豁护,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后欲间,有當地人在樹林里發(fā)現(xiàn)了一具尸體楚里,經...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年猎贴,在試婚紗的時候發(fā)現(xiàn)自己被綠了班缎。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝴光。...
    茶點故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖达址,靈堂內的尸體忽然破棺而出蔑祟,到底是詐尸還是另有隱情,我是刑警寧澤沉唠,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布疆虚,位于F島的核電站,受9級特大地震影響满葛,放射性物質發(fā)生泄漏径簿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一嘀韧、第九天 我趴在偏房一處隱蔽的房頂上張望篇亭。 院中可真熱鬧,春花似錦锄贷、人聲如沸译蒂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蹂随。三九已至,卻和暖如春因惭,著一層夾襖步出監(jiān)牢的瞬間岳锁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工蹦魔, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留激率,地道東北人。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓勿决,卻偏偏與公主長得像乒躺,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子低缩,可洞房花燭夜當晚...
    茶點故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內容