大師兄的數(shù)據(jù)分析學習筆記(四）：探索性數(shù)據(jù)分析（三）

大師兄的數(shù)據(jù)分析學習筆記(三）：探索性數(shù)據(jù)分析（二）
大師兄的數(shù)據(jù)分析學習筆記(五）：探索性數(shù)據(jù)分析（四）

三施逾、單因子與可視化

6. 數(shù)據(jù)分類

數(shù)據(jù)類型	描述	案例
定類數(shù)據(jù)	根據(jù)事務離散、無差別屬性進行的分類榜配。	民族儿奶、性別
定序數(shù)據(jù)	可以界定數(shù)據(jù)的大小丁眼，但不能測定差值。	職稱等級
定距數(shù)據(jù)	可以界定數(shù)據(jù)大小的同時，可測定差值将宪，無絕對零點(乘除無意義)。	溫度
定比數(shù)據(jù)	可以界定數(shù)據(jù)大小橡庞，可測定差值较坛、有絕對零點。	身高體重

7. 異常值分析

異常值是指與其他觀測值有顯著差異的數(shù)據(jù)點扒最。
異常值的存在可能會導致數(shù)據(jù)無效丑勤。

7.1 連續(xù)異常值

在一組數(shù)據(jù)中的上四分位數(shù)向上取k倍(k通常取1.5-3)為上界,下四分位數(shù)向下取k倍為下界，上/下界以外的值稱為異常值吧趣。
通常k取1.5時為中等異常法竞、取3時為非常異常。
連續(xù)異常值可以根據(jù)實際情況舍棄或用上/下界替代强挫。

>>>import numpy as np

>>>k = 1.5
>>>data = np.append(np.random.rand(100),(np.random.rand(10)*10))
>>>Q_L = np.quantile(data,0.25,interpolation='lower')
>>>Q_U = np.quantile(data,0.75,interpolation='higher')
>>>IQR = Q_U - Q_L
>>>outlier_step = k*IQR
>>>abnormal = data[(data>Q_U+outlier_step)|(data<Q_L-outlier_step)]
>>>print(f"上界:{Q_U+outlier_step} 下界:{Q_L-outlier_step}")
上界:1.5504747843883402 下界:-0.3883817114860346
>>>print(f"異常值：{abnormal}")
異常值：[8.17103381 8.41505442 1.88209875 2.42209849 6.89254331 4.46870627
 3.74401613 5.98124444 9.12398726]

7.2 離散異常值

離散屬性定義范圍外的所有值均為異常值岔霸，比如空值。
離散異常值可以直接舍棄或當做單獨的值來處理俯渤。

>>>import numpy as np

>>>values = ["A","B","C",None]
>>>data = np.random.choice(values,size=100)
>>>print(f"100個數(shù)據(jù)中的異常值為{len([x for x in data if not x])}")
100個數(shù)據(jù)中的異常值為26

7.3 知識異常值

限制知識以外的異常值為**知識異常值呆细，比如身高超過10米。

8. 對比分析

對比分析是通過比較的方式達到認識與了解事實與數(shù)據(jù)的分析方法稠诲。

8.1 對比內(nèi)容

絕對數(shù)比較：數(shù)字比較侦鹏，比如收入、身高臀叙、面積的比較略水。
相對數(shù)比較：把幾個有聯(lián)系的指標進行聯(lián)合構(gòu)成相對數(shù)比較，常見以下相對數(shù):

相對數(shù)	描述
結(jié)構(gòu)相對數(shù)	部分與整體進行相比劝萤，比如用產(chǎn)品合格率評價產(chǎn)品質(zhì)量渊涝。
比例相對數(shù)	總體內(nèi)用不同部分的數(shù)值進行比較，比如產(chǎn)業(yè)結(jié)構(gòu)中農(nóng)業(yè)床嫌、重工業(yè)和服務業(yè)之間的占比變化跨释。
比較相對數(shù)	同一時空下的相似或同質(zhì)的指標進行對比，比如不同時期下商品的價格厌处。
動態(tài)相對數(shù)	時間概念的相對數(shù)鳖谈，比如用戶數(shù)量的增速。
強度相對數(shù)	性質(zhì)不同阔涉，擔憂相互聯(lián)系的屬性及其聯(lián)合缆娃，比如gdp和人均gdp的比較捷绒。

8.2 對比方法

時間維度：根據(jù)不同的時間進行比較，比如同比贯要、環(huán)比等暖侨。
空間維度：根據(jù)現(xiàn)實方位不同的空間，比如不同城市崇渗；或邏輯上的空間進行比較字逗，比如公司內(nèi)不同的部門。
經(jīng)驗與計劃維度：比如計劃排期與進度進行比較等宅广。

9. 結(jié)構(gòu)分析

結(jié)構(gòu)分析可以看做對比分析中的比例相對數(shù)的比較葫掉，重點研究整體組成結(jié)構(gòu)方面的差異與相關(guān)性。
結(jié)構(gòu)分析可以分為靜態(tài)結(jié)構(gòu)分析與動態(tài)結(jié)構(gòu)分析乘碑。

9.1 靜態(tài)結(jié)構(gòu)分析

靜態(tài)結(jié)構(gòu)分析是直接分析總體的組成挖息。

>>>import matplotlib.pyplot as plt
>>>import pandas as pd
>>>plt.rcParams['font.sans-serif']=['SimHei']

>>>data = {
>>>    "A班":{"男生":34,"女生":17},
>>>    "B班":{"男生":26,"女生":44},
>>>    "C班":{"男生":42,"女生":8},
>>>}

>>>data = pd.DataFrame.from_dict(data)
>>>fig,(ax1,ax2,ax3) = plt.subplots(1,3)
>>>ax1.pie(data.A班,labels=data.index)
>>>ax2.pie(data.B班,labels=data.index)
>>>ax3.pie(data.C班,labels=data.index)
>>>ax1.set_title("A班")
>>>ax2.set_title("B班")
>>>ax3.set_title("C班")
>>>plt.show()

9.2 動態(tài)結(jié)構(gòu)分析

動態(tài)結(jié)構(gòu)分析是以時間為軸，分析結(jié)構(gòu)變化的趨勢兽肤。

>>>import pandas as pd
>>>import matplotlib.pyplot as plt

>>>data = {
>>>    "2022-2":{"男生":21,"女生":16},
>>>    "2022-3":{"男生":25,"女生":14},
>>>    "2022-4":{"男生":20,"女生":22},
>>>}

>>>data = pd.DataFrame.from_dict(data,orient="index")
>>>data['男生比例'] = data['男生']/(data['男生']+data['女生'])
>>>data['女生比例'] = data['女生']/(data['男生']+data['女生'])

>>>x = data.index
>>>plt.plot(x,data['男生比例'])
>>>plt.plot(x,data['女生比例'])
>>>plt.legend()
>>>plt.show()

10. 分布分析

10.1 直接獲得概率分布

將得到的數(shù)字排列励负。
如果是離散的是鬼，就講離散值數(shù)出來，并將其排列边篮。
直接獲得的概率分布幢码，有可能有意義的笤休，有可能需要經(jīng)過比對才有意義，也有可能是沒有意義的症副。

10.2 判斷是不是正態(tài)分布

如果一個分布屬于正態(tài)分布店雅，就可以用均值、方差等性質(zhì)來快速定位某具體值相對于整體的位置贞铣。
判斷數(shù)據(jù)是正態(tài)分布闹啦，需要用到假設檢驗的方法。
判斷數(shù)據(jù)不是正態(tài)分布辕坝，可以看數(shù)據(jù)的偏態(tài)和峰態(tài)窍奋，如果偏態(tài)和峰態(tài)過大，則不是正態(tài)分布酱畅。

10.3 極大似然

極大似然就是極大相似的樣子琳袄，是相似程度的衡量，用于比較一組數(shù)據(jù)和已知的分布有多像纺酸。

如果一份數(shù)據(jù)屬于正態(tài)分布窖逗，就一定可以確定一個均值和一個方差;

使該均值和方差確定的正態(tài)分布下的數(shù)據(jù)點在這個確定的分布的取值是它們的概率;

這些值的和或者集在剛剛確定的均值和方差下是最大的；

取這些值的和或者集的對數(shù)餐蔬，這個對數(shù)就叫極大似然碎紊。

對比數(shù)據(jù)在比如正態(tài)分布在张、t分布或f分布下的極大似然，哪個極大似然越大矮慕，就越接近哪種分布帮匾。

>>>import matplotlib.pyplot as plt
>>>import numpy as np
>>>import pandas as pd
>>>from scipy.stats import norm

>>>u = 30
>>>d = 2
>>>x = pd.DataFrame(u+d*np.random.randn(5000))
>>>print(f"均值：{x.mean().values}")
>>>print(f"中位數(shù):{x.median().values}")
>>>print(f"峰度:{x.kurt().values}")
>>>print(f"偏度:{x.skew().values}")
>>>print(f"正態(tài)分布極大似然估計：{norm.fit(x)}")
>>>print(f"t分布極大似然估計:{t.fit(x)}")

>>>plt.hist(x,bins=100)
>>>plt.show()
均值：[30.01113002]
中位數(shù):[29.99309605]
峰度:[-0.02476348]
偏度:[0.0575392]
正態(tài)分布極大似然估計：(30.011130016680593, 1.9851376026711942)
t分布極大似然估計:(44.04636433569924, 30.009866284533302, 1.9221391065961893)

最后編輯于：2022.04.22 20:09:54

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市痴鳄，隨后出現(xiàn)的幾起案子瘟斜，更是在濱河造成了極大的恐慌，老刑警劉巖痪寻，帶你破解...
沈念sama閱讀 222,464評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件螺句，死亡現(xiàn)場離奇詭異，居然都是意外死亡橡类，警方通過查閱死者的電腦和手機蛇尚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,033評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來顾画，“玉大人取劫，你說我怎么就攤上這事⊙新拢” “怎么了谱邪？”我有些...
開封第一講書人閱讀 169,078評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長庶诡。經(jīng)常有香客問我惦银，道長，這世上最難降的妖魔是什么末誓？我笑而不...
開封第一講書人閱讀 59,979評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任扯俱，我火速辦了婚禮，結(jié)果婚禮上喇澡，老公的妹妹穿的比我還像新娘迅栅。我一直安慰自己，他們只是感情好撩幽，可當我...
茶點故事閱讀 69,001評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布库继。她就那樣靜靜地躺著，像睡著了一般窜醉。火紅的嫁衣襯著肌膚如雪宪萄。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,584評論 1贊 312
城市分裂傳說
那天榨惰，我揣著相機與錄音拜英，去河邊找鬼。笑死琅催，一個胖子當著我的面吹牛居凶，可吹牛的內(nèi)容都是我干的虫给。我是一名探鬼主播，決...
沈念sama閱讀 41,085評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼侠碧，長吁一口氣：“原來是場噩夢啊……” “哼抹估！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起弄兜，我...
開封第一講書人閱讀 40,023評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤药蜻，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后替饿，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體语泽，經(jīng)...
沈念sama閱讀 46,555評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,626評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年视卢，在試婚紗的時候發(fā)現(xiàn)自己被綠了踱卵。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,769評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡据过，死狀恐怖惋砂，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蝶俱，我是刑警寧澤班利，帶...
沈念sama閱讀 36,439評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站榨呆，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏庸队。R本人自食惡果不足惜积蜻，卻給世界環(huán)境...
茶點故事閱讀 42,115評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望彻消。院中可真熱鬧竿拆，春花似錦、人聲如沸宾尚。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,601評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽煌贴。三九已至御板，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間牛郑，已是汗流浹背怠肋。一陣腳步聲響...
開封第一講書人閱讀 33,702評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留淹朋，地道東北人笙各。一個月前我還...
沈念sama閱讀 49,191評論 3贊 378
代替公主和親
正文我出身青樓钉答，卻偏偏與公主長得像，于是被迫代替她去往敵國和親杈抢。傳聞我的和親對象是個殘疾皇子数尿，可洞房花燭夜當晚...
茶點故事閱讀 45,781評論 2贊 361

大師兄的數(shù)據(jù)分析學習筆記(四）：探索性數(shù)據(jù)分析（三）

三施逾、單因子與可視化

6. 數(shù)據(jù)分類

7. 異常值分析

7.1 連續(xù)異常值

7.2 離散異常值

7.3 知識異常值

8. 對比分析

8.1 對比內(nèi)容

8.2 對比方法

9. 結(jié)構(gòu)分析

9.1 靜態(tài)結(jié)構(gòu)分析

9.2 動態(tài)結(jié)構(gòu)分析

10. 分布分析

10.1 直接獲得概率分布

10.2 判斷是不是正態(tài)分布

10.3 極大似然

推薦閱讀更多精彩內(nèi)容