第4部分:統(tǒng)計(jì)學(xué)
僅作為學(xué)習(xí)記錄作為參考
統(tǒng)計(jì)學(xué) - 總共分為16部分:
- 1校仑、描述統(tǒng)計(jì)學(xué) - 第一部分(選修)
- 2泰偿、描述統(tǒng)計(jì)學(xué) - 第二部分(選修)
- 3片迅、錄取案例分析
- 4弛房、概率
- 5、二項(xiàng)分布
- 6因苹、條件概率
- 7、貝葉斯規(guī)則
- 8篇恒、Python概率練習(xí)
- 9扶檐、正態(tài)分布理論
- 10、抽樣分布與中心及限定理
- 11胁艰、置信區(qū)間
- 12款筑、假設(shè)檢驗(yàn)
- 13、案例研究:A/B測(cè)試
- 14腾么、回歸
- 15奈梳、多元線性回歸
- 16、邏輯回歸
- 項(xiàng)目:A/B測(cè)試項(xiàng)目
一解虱、描述統(tǒng)計(jì)學(xué) - 第一部分(選修)
1攘须、數(shù)據(jù)類型
數(shù)據(jù)類型 | ||
---|---|---|
數(shù)值 | 連續(xù) | 離散 |
身高、年齡殴泰、收入 | 書(shū)中的頁(yè)數(shù)于宙、院子里的樹(shù)、咖啡店里的狗 | |
分類 | 定序 | 定類 |
字母成績(jī)等級(jí)悍汛、調(diào)查評(píng)級(jí) | 性別捞魁、婚姻狀況、早餐食品 |
2离咐、分析數(shù)值:數(shù)據(jù)
在分析離散數(shù)值數(shù)據(jù)和連續(xù)數(shù)值數(shù)據(jù)的時(shí)候谱俭,分析數(shù)值數(shù)據(jù)有四個(gè)主要方面:
- center(集中趨勢(shì))
- spread(離散程度)
- shape(形狀)
- outliers(異常值)
集中趨勢(shì)測(cè)量的方式有三種:
- 三大測(cè)量方法:mean(均值)、median(中位數(shù)) 、mode(眾數(shù))
3旺上、符號(hào)表達(dá)式介紹
表達(dá)式瓶蚂,學(xué)術(shù)和工業(yè)界專業(yè)人士用來(lái)傳達(dá)數(shù)學(xué)思想的通用語(yǔ)言。符號(hào)表達(dá)式讓難以用語(yǔ)言表達(dá)的想法變得更容易傳達(dá)宣吱。
- 隨機(jī)變量
隨機(jī)變量是某些進(jìn)程的可能值的占位符窃这。我們看到隨機(jī)變量用大寫(xiě)字母表示(X、Y 或 Z 是表示隨機(jī)變量的常用方法)征候。它可以是從 0 到無(wú)限的任意值杭攻。 - 大寫(xiě)字母與小寫(xiě)字母
隨機(jī)變量用大寫(xiě)字母表示。每當(dāng)我們觀察到這些隨機(jī)變量的一個(gè)結(jié)果疤坝,就用相同字母的小寫(xiě)表示兆解。
4、更多聚合的知識(shí)
Σ 符號(hào)用于使用求和進(jìn)行聚合跑揉,但是我們可以選擇通過(guò)其他方式進(jìn)行聚合锅睛。求和是最常見(jiàn)的聚合方式之一。但是历谍,我們可能需要以其他方式進(jìn)行聚合现拒。如果我們想將所有的值相乘,我們可以使用求積符∏ 望侈,希臘字母 π 的大寫(xiě)印蔬。我們聚合連續(xù)值的方式稱為積分(微積分中的一種常用技術(shù)),它使用以下符號(hào) ∫ 脱衙,就像一個(gè)拉長(zhǎng)的 s侥猬。(π(option+P),∫(option+B)) - 求和sigma ∑
(如何在鍵盤上打出∑這個(gè)符號(hào)捐韩?同時(shí)按住option和W鍵即可)
求和并計(jì)算均值??
![求和并計(jì)算均值](https://upload-images.
.io/upload_images/5016667-ea76c4633a173f82.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
二退唠、描述統(tǒng)計(jì)學(xué) - 第二部分(選修)
本部分主要講分析值變量的第二方面:離散程度
離散程度測(cè)量用于告訴我們數(shù)據(jù)之間的分散程度。常見(jiàn)的離散程度測(cè)量包括:
- 極差(Range)
極差又稱全距奥帘,是最大值(MAXMUM)和最小值(MINMUM)之間的差值铜邮。 - 四分位差 (IQR)(inter-quartile range)
四分位差為Q 3 和 Q 1 之間的差值。 - 標(biāo)準(zhǔn)差(Standard Deviation)
每個(gè)觀察值與均值之間的平均差異寨蹋。 - 方差(Variance)
直方圖對(duì)于了解數(shù)值數(shù)據(jù)的不同方面是非常有用的松蒜。理解前面提到的關(guān)于數(shù)值變量的四個(gè)方面:- 集中趨勢(shì)
- 離散程度
- 形狀
- 異常值
很神奇,一個(gè)數(shù)據(jù)的眾數(shù)已旧、中位數(shù)秸苗、平均數(shù)都一樣,離散程度差很多运褪。
1惊楼、五數(shù)概括法
五數(shù)概括法包括 5 個(gè)值:
- 最小值(MINMUN): 數(shù)據(jù)集中的最小值玖瘸。
- Q 1(第一四分位數(shù)):排序后數(shù)據(jù)第 25% 處的值。
- Q 2(中位數(shù)):排序后數(shù)據(jù)第 50% 處的值檀咙。
- Q 3(第三四分位數(shù)):排序后數(shù)據(jù)第 75% 處的值雅倒。
-
最大值(MAXMUM): 數(shù)據(jù)集中的最大值。
需要注意的是弧可,Q2不用在計(jì)算Q1和Q3 的數(shù)據(jù)集中蔑匣。
對(duì)于偶數(shù)個(gè)數(shù)值。
2棕诵、標(biāo)準(zhǔn)差和方差
標(biāo)準(zhǔn)差和方差計(jì)算兩個(gè)數(shù)據(jù)哪個(gè)更分散裁良,數(shù)據(jù)越大越分散
標(biāo)準(zhǔn)差(Standard Deviation)
每個(gè)觀察值與均值之間的平均差異。
方差(variance)是在概率論和統(tǒng)計(jì)方差衡量隨機(jī)變量或一組數(shù)據(jù)時(shí)離散程度的度量校套。
方差和標(biāo)注差部分——總結(jié)
- 方差和標(biāo)準(zhǔn)差都能用于比較兩組不同數(shù)據(jù)的離散程度价脾。方差/標(biāo)準(zhǔn)差較高的一組數(shù)據(jù)相比較低的一組數(shù)據(jù),其分布更為廣泛笛匙。但是注意侨把,有可能只有一個(gè)(或多個(gè))異常值提高了方差或者標(biāo)準(zhǔn)差,而大多數(shù)數(shù)據(jù)實(shí)際上比較集中妹孙。
- 在比較兩個(gè)數(shù)據(jù)集之間的離散程度時(shí)座硕,每個(gè)數(shù)據(jù)集的單位必須相同。
- 當(dāng)數(shù)據(jù)與貨幣或經(jīng)濟(jì)有關(guān)時(shí)涕蜂,方差(或標(biāo)準(zhǔn)差)更高則表示風(fēng)險(xiǎn)越高。
- 在實(shí)踐中映琳,標(biāo)準(zhǔn)差比方差更常用,因?yàn)樗褂迷紨?shù)據(jù)集的單位,標(biāo)準(zhǔn)差的單位是原始數(shù)據(jù)單位的平方夺脾,這沒(méi)什么實(shí)際意義鼓黔。
3、形狀和異常值
- 形狀
數(shù)據(jù)的分布通常為以下三種形狀之一:- 右偏態(tài)(類似冪律分布)
- 左偏態(tài)
- 對(duì)稱分布(通常是正態(tài)分布)
- 異常值
異常值是明顯偏離其余數(shù)據(jù)點(diǎn)的點(diǎn)谎脯。這會(huì)極大地影響均值和標(biāo)準(zhǔn)差等度量葱跋,而對(duì)五數(shù)概括法中的第1四分位數(shù)、中位數(shù)源梭、第2四分位數(shù)的影響較小娱俺。
當(dāng)出現(xiàn) 異常值 時(shí),我們應(yīng)該考慮以下幾點(diǎn)废麻。
- 注意到它們的存在以及對(duì)概括性度量的影響荠卷。
- 如果有拼寫(xiě)錯(cuò)誤 —— 刪除或改正。
- 了解它們?yōu)槭裁磿?huì)存在烛愧,以及對(duì)我們要回答的關(guān)于異常值的問(wèn)題的影響油宜。
- 當(dāng)有異常值時(shí)掂碱,報(bào)告五數(shù)概括法的值通常能比均值和標(biāo)準(zhǔn)差等度量更好地體現(xiàn)異常值的存在。
- 報(bào)告時(shí)要小心慎冤。知道如何提出正確的問(wèn)題疼燥。
異常值處理建議
- 在數(shù)據(jù)集中使用列(隨機(jī)變量)的準(zhǔn)則。
- 繪制你的數(shù)據(jù)以確定是否有異常值蚁堤。
- 通過(guò)上述方法處理異常值醉者。
- 如果無(wú)異常值,且你的數(shù)據(jù)遵循正態(tài)分布违寿,使用均值和標(biāo)準(zhǔn)差來(lái)描述你的數(shù)據(jù)集湃交,并報(bào)告數(shù)據(jù)為正態(tài)分布。
- 如果你有偏態(tài)數(shù)據(jù)或異常值藤巢,則使用五數(shù)概括法來(lái)概括你的數(shù)據(jù)并報(bào)告異常值搞莺。
4、描述統(tǒng)計(jì)與推論統(tǒng)計(jì)
- 描述統(tǒng)計(jì)
描述統(tǒng)計(jì) 是用我們?cè)诒菊n中談到的度量描述收集的數(shù)據(jù):集中趨勢(shì)度量掂咒、離散程度度量才沧、分布形狀和異常值。我們也可以通過(guò)繪制數(shù)據(jù)圖獲得更好的理解绍刮。
總體 —— 我們想要研究的整個(gè)群體温圆。
參數(shù) —— 描述總體的數(shù)值摘要
樣本 —— 總體的子集
統(tǒng)計(jì)量 —— 描述樣本的數(shù)值摘要
三、錄取案例分析
1孩革、 錄取案例練習(xí):辛普森悖論
案例總結(jié):查看數(shù)據(jù)的方式的不同會(huì)引起完全不同的結(jié)果岁歉。
四、概率
1膝蜈、概率和統(tǒng)計(jì)的區(qū)別
統(tǒng)計(jì)和概率是不同但又緊密相關(guān)的數(shù)學(xué)領(lǐng)域锅移。
在概率中,我們根據(jù)假定的模型或原因饱搏,對(duì)未來(lái)事件做出預(yù)測(cè)非剃;而在統(tǒng)計(jì)中,我們對(duì)過(guò)去發(fā)生的事件中的數(shù)據(jù)進(jìn)行分析推沸,從而推斷出這些模型或原因是什么备绽。一個(gè)是預(yù)測(cè)數(shù)據(jù),另一個(gè)是根據(jù)數(shù)據(jù)進(jìn)行預(yù)測(cè)鬓催。
舉個(gè)??:
- “概率論研究的是一個(gè)透明箱子肺素,你知道這個(gè)箱子的構(gòu)造(里面有幾個(gè)紅球、幾個(gè)白球宇驾,也就是所謂的分布函數(shù))压怠,然后計(jì)算下一個(gè)摸出來(lái)的球是紅球的概率。
- 統(tǒng)計(jì)學(xué)面對(duì)的是一個(gè)黑匣子飞苇,你只看得到每次摸出來(lái)的是紅球還是白球菌瘫,然后需要猜測(cè)這個(gè)黑匣子的內(nèi)部結(jié)構(gòu)蜗顽,例如紅球和白球的比例是多少?(參數(shù)估計(jì))能不能認(rèn)為紅球40%雨让,白球60%雇盖?(假設(shè)檢驗(yàn))”
2、概率總結(jié) - 何事件的概率在 0 和 1 之間栖忠,其中包括 0 和 1崔挖。
- 互補(bǔ)事件的概率為 1 減去某個(gè)事件的概率。其他一切可能事件的概率是 1 減去某個(gè)事件本身的概率庵寞。因此所有可能事件概率的總和等于 1狸相。
- 如果我們事件是獨(dú)立的,一系列可能事件的概率是這些事件的乘積捐川。某個(gè)事件的概率 AND 下一個(gè)事件的概率 AND 下一個(gè)事件的概率脓鹃,即這些事件概率的乘積。
五古沥、二項(xiàng)分布
1瘸右、計(jì)算多次拋硬幣的情況
n! 代表n的階乘
不同概率的情況
可以使用這個(gè)分布決定下列事件的概率:
- 擲硬幣 10 次出現(xiàn) 3 次正面的概率。
- 擲硬幣 10 次出現(xiàn) 8 次以上正面的概率岩齿。
- 擲硬幣 20 次不出現(xiàn)正面的概率太颤。
P代表概率,K代表出現(xiàn)次數(shù)盹沈,n代表操作次數(shù)
六龄章、條件概率
七、貝葉斯規(guī)則
1乞封、條件概率
注釋:
- P(A) 表示 "A 的概率"
- P(\neg A)P(?A) 表示 "非 A 的概率"
- P(A,B)P(A,B) 表示 "A 和 B 同時(shí)發(fā)生的 概率" 并且
- P(A|B)P(A∣B) 表示 "條件為 B 時(shí) A 發(fā)生的概率"
2瓦堵、貝葉斯公式
P(S|Y) = P(Y|S)*P(S) / P(Y)
八、Python概率練習(xí)
1歌亲、random函數(shù)
函數(shù)使用方法:
randint:
np.radom.randint(2,size = 100,)
choice
np.random.choice([0,1],size = 100,p=[0.3,0.7])——P是概率
2、二項(xiàng)式:binomial函數(shù)
九澜驮、正態(tài)分布理論
1陷揪、公式
十、抽樣分布與中心及限定理
1杂穷、 描述統(tǒng)計(jì) 與 推論統(tǒng)計(jì)
- 描述統(tǒng)計(jì) 是用來(lái)描述收集的數(shù)據(jù)悍缠。
- 推論統(tǒng)計(jì) 在于使用我們收集的數(shù)據(jù)對(duì)更大的總體數(shù)據(jù)得出結(jié)論。
再次回顧之前學(xué)過(guò)的概念:
總體 —— 我們想要研究的整個(gè)群體耐量。
參數(shù) —— 描述總體的數(shù)值摘要
樣本 —— 總體的子集
統(tǒng)計(jì)量 —— 描述樣本的數(shù)值摘要
計(jì)算方差飞蚓、標(biāo)準(zhǔn)差
v_5 = np.var(sample_props)
s_5 = np.std(sample_props)
2、抽樣分布
抽樣分布涉及的兩個(gè)重要數(shù)學(xué)定理包括:
- 大數(shù)法則
- 中心極限定理
三種最常見(jiàn)的估計(jì)技巧:
使用 numpy 的 random.choice 模擬從 pop_data 數(shù)組中進(jìn)行3次取樣
test_1 = np.random.choice(pop_data, 3)
中心極限定理 表示 樣本容量足夠大廊蜒,平均數(shù)的抽樣分布越接近正態(tài)分布趴拧。
但是溅漾,中心極限定理不能應(yīng)用于所有統(tǒng)計(jì)量。像方差
自助法
自助法 (bootstrap) 是放回抽樣著榴。在 python 中使用 random.choice 實(shí)際上是自助法添履。無(wú)論選擇多少次,我們數(shù)據(jù)集中任何數(shù)字的概率保持不變脑又。拋硬幣和擲骰子也是自展抽樣暮胧,因?yàn)樵谝粋€(gè)場(chǎng)景中滾動(dòng)出 6,并不意味著后面出現(xiàn) 6 的概率降低问麸。
下列是發(fā)現(xiàn) "最佳統(tǒng)計(jì)量" 估計(jì)技巧最常見(jiàn)的三種方式:
兩個(gè)有用鏈接:
十一席舍、置信區(qū)間
1、置信區(qū)間的使用
2妄田、均數(shù)差
- 練習(xí)作業(yè)
- 對(duì)于10,000次迭代俺亮,自展法(bootstrap)會(huì)對(duì)你的樣本數(shù)據(jù)進(jìn)行抽樣,計(jì)算喝咖啡和不喝咖啡的人的平均身高的差異疟呐。使用你的抽樣分布建立一個(gè)99%的置信區(qū)間脚曾。
diff_coffee = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample[coffee_sample['drinks_coffee'] == True]['height'].mean()
nd_coffee = coffee_sample[coffee_sample['drinks_coffee'] == False]['height'].mean()
diff_coffee.append(d_coffee - nd_coffee)
plt.hist(diff_coffee)
np.percentile(diff_coffee, 0.5), np.percentile(diff_coffee, 99.5)
- 對(duì)于10,000次迭代,自展法會(huì)對(duì)樣本數(shù)據(jù)進(jìn)行抽樣启具,計(jì)算21歲以上和21歲以下的平均身高的差異本讥。使用你的抽樣分布構(gòu)建一個(gè)99%的置信區(qū)間。
diff_coffee = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample[coffee_sample['age'] == '<21']['height'].mean()
nd_coffee = coffee_sample[coffee_sample['age'] != '<21']['height'].mean()
diff_coffee.append(d_coffee - nd_coffee)
plt.hist(diff_coffee)
np.percentile(diff_coffee, 0.5), np.percentile(diff_coffee, 99.5)
- 對(duì)于10,000次迭代鲁冯,自展法會(huì)對(duì)你的樣本數(shù)據(jù)進(jìn)行抽樣拷沸,計(jì)算出21歲以下個(gè)體的喝咖啡的人的平均身高和不喝咖啡的人的平均身高之間的差異。使用你的抽樣分布薯演,建立一個(gè)95%的置信區(qū)間撞芍。
diff_21 = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample.query("age == '<21' and drinks_coffee == True")['height'].mean()
nd_coffee = coffee_sample.query("age == '<21' and drinks_coffee == False")['height'].mean()
diff_21.append(d_coffee - nd_coffee)
plt.hist(diff_21)
np.percentile(diff_21, 2.5), np.percentile(diff_21, 97.5)
- 對(duì)于10,000次迭代,自展法會(huì)對(duì)你的樣本數(shù)據(jù)進(jìn)行抽樣跨扮,計(jì)算出21歲以上個(gè)體的喝咖啡的人的平均身高和不喝咖啡的人的平均身高之間的差異序无。使用你的抽樣分布,建立一個(gè)95%的置信區(qū)間衡创。
diff_21 = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample.query("age != '>21' and drinks_coffee == True")['height'].mean()
nd_coffee = coffee_sample.query("age != '>21' and drinks_coffee == False")['height'].mean()
diff_21.append(d_coffee - nd_coffee)
plt.hist(diff_21)
np.percentile(diff_21, 2.5), np.percentile(diff_21, 97.5)
統(tǒng)計(jì)顯著性和實(shí)際顯著性
使用置信區(qū)間和假設(shè)檢驗(yàn)帝嗡,你能夠在做決策時(shí)提供 統(tǒng)計(jì)顯著性。
然而璃氢,做決策時(shí)考慮 實(shí)際顯著性 同樣很重要哟玷。 實(shí)際顯著性 考慮到所處情況的其他因素,假設(shè)檢驗(yàn)或置信空間的結(jié)果可能不會(huì)直接考慮到這種情況一也〕补眩空間喉脖、時(shí)間 或 金錢 等約束條件對(duì)商業(yè)決定很重要。但是可能不會(huì)在統(tǒng)計(jì)測(cè)試中直接考慮這些因素讼渊。
十二动看、假設(shè)檢驗(yàn)
1、檢驗(yàn)假設(shè)概念
2爪幻、P值
-
P值大菱皆,表示不應(yīng)該拋棄零假設(shè)。
P值小于或等于?時(shí)挨稿,可以拒絕零假設(shè)
2仇轻、本章小結(jié)
https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.random.normal.html
十三、案例研究:A/B測(cè)試
1奶甘、求點(diǎn)擊率的代碼
我們來(lái)復(fù)習(xí)下分析這個(gè) A/B 測(cè)試結(jié)果涉及了哪些操作篷店。
- 我們計(jì)算了對(duì)照組和實(shí)驗(yàn)組的指標(biāo)觀察差異,即點(diǎn)擊率臭家;
- 我們?yōu)楸壤町?(即點(diǎn)擊率差異)建立了抽樣分布 模型疲陕;
- 我們用這個(gè)抽樣分布模型來(lái)為 零假設(shè)分布 建立模型,也即創(chuàng)建了一個(gè)隨機(jī)正態(tài)分布模型钉赁,模型以 0 為中心蹄殃,大小和寬度與抽樣分布的一樣。
- 我們通過(guò)找出零假設(shè)分布中大于觀察差異的那部分比值你踩,從而計(jì)算出了 p 值诅岩;
- 我們用 p 值來(lái)確定觀察差異是否有 統(tǒng)計(jì)顯著性。
2带膜、多個(gè)分析指標(biāo)
Bonferroni 校正
Bonferroni 校正是處理多測(cè)試實(shí)驗(yàn)的方法之一吩谦,也就是說(shuō) Bonferroni 校正可以處理本案例多指標(biāo)造成的問(wèn)題。要計(jì)算新的 Bonferroni 校正顯著值膝藕,我們需要讓原顯著值除以測(cè)試數(shù)量式廷。
注:
一旦指標(biāo)間有關(guān)聯(lián),Bonferroni 方案就顯得太過(guò)保守芭挽,因此要更好地解決這個(gè)問(wèn)題滑废,我們可以用更復(fù)雜的辦法,如封閉測(cè)試程序览绿、 Boole-Bonferroni 聯(lián)合校正 以及 Holm-Bonferroni 方案。這些都沒(méi)有 Bonferroni 方案那么保守穗慕,而且會(huì)把指標(biāo)間的相關(guān)性考慮在內(nèi)饿敲。
如果你真的選了沒(méi)那么保守的方案,請(qǐng)確保方案假設(shè)的確適用于你的情況逛绵,而不是在 糊弄 p 值怀各。為了得到顯著性結(jié)果而選擇不適合的測(cè)試方法只會(huì)造成決策有失偏頗倔韭,長(zhǎng)期下來(lái)會(huì)傷害到你的公司業(yè)績(jī)。
十四瓢对、回歸
1寿酌、回歸
回歸是常用的一種數(shù)據(jù)分析的方法,通過(guò)規(guī)定因變量和自變量來(lái)確定變量之間的因果關(guān)系硕蛹,是一種建立回歸模型醇疼,并根據(jù)實(shí)測(cè)數(shù)據(jù)來(lái)求解模型的各個(gè)參數(shù),然后評(píng)價(jià)回歸模型是否能夠很好的擬合實(shí)測(cè)數(shù)據(jù)法焰。
- 課綱:
- 認(rèn)識(shí)回歸應(yīng)用
- 學(xué)習(xí)回歸的工作原理
- 借助 Python 來(lái)用回歸解決問(wèn)題
2秧荆、機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí) 通常分為監(jiān)督 和 非監(jiān)督學(xué)習(xí),而你將在本課(接下來(lái)的課程還會(huì)涉及相關(guān)擴(kuò)展知識(shí))學(xué)到的回歸則是監(jiān)督機(jī)器學(xué)習(xí)的范例之一埃仪。
在監(jiān)督機(jī)器學(xué)習(xí)中乙濒,你要做的是預(yù)測(cè)數(shù)據(jù)標(biāo)簽。一般你可能會(huì)想預(yù)測(cè)交易是否欺詐卵蛉、愿意購(gòu)買產(chǎn)品的顧客或某一地區(qū)的房?jī)r(jià)颁股。
線性回歸和羅輯回歸都屬于監(jiān)督學(xué)習(xí)
3、線性回歸
在簡(jiǎn)單線性回歸中傻丝,我們要對(duì)兩個(gè)定量變量進(jìn)行比較甘有。
反應(yīng) 變量是你想預(yù)測(cè)的變量,解釋變量則是用于預(yù)測(cè)反應(yīng)變量的變量桑滩,在線性回歸中梧疲,通常我們會(huì)用散點(diǎn)圖來(lái)可視化兩個(gè)變量的關(guān)系,你將在接下來(lái)的各種概念中進(jìn)一步了解這一點(diǎn)运准。
4幌氮、散點(diǎn)圖
散點(diǎn)圖是比較兩個(gè)定量變量的常用可視化手段。散點(diǎn)圖常用的匯總統(tǒng)計(jì)是 相關(guān)系數(shù)胁澳,該系數(shù)常以 r 來(lái)表示该互。
雖然還有其它幾種辦法來(lái)衡量?jī)蓚€(gè)變量之間的相關(guān)性,但最常用的辦法是用皮爾遜相關(guān)系數(shù)韭畸,該系數(shù)能說(shuō)明 線性關(guān)系 的:
- 相關(guān)程度
- 相關(guān)方向
斯皮爾曼相關(guān)性系數(shù)則不只衡量線性關(guān)系宇智,可能更適用于關(guān)聯(lián)兩個(gè)變量的場(chǎng)合。
-
散點(diǎn)圖的相關(guān)度胰丁,在-1和1 之間随橘,越接近-1,負(fù)相關(guān)越強(qiáng)锦庸;越接近1机蔗,正相關(guān)越強(qiáng)。
-
相關(guān)系數(shù)
5、回歸線
-
截距&斜率
用python擬合回歸線
注意萝嘁,如果電腦沒(méi)有安裝statsmodels庫(kù)梆掸,需要安裝以下
命令:
在終端輸入:
pip install satamodels
在python中使用的時(shí)候,需要導(dǎo)入satamodels牙言,
如下:
import satamodels.api as sm
OLS:最小二乘法
更多參考資料在這里 K崆铡!咱枉!
我們可以用 Python (或其它軟件) 來(lái)對(duì)線性模型的系數(shù)進(jìn)行假設(shè)檢驗(yàn)卑硫。這些測(cè)試能幫我們判斷某個(gè)變量與其反應(yīng)變量是否具有具統(tǒng)計(jì)顯著性的線性關(guān)系,不過(guò)對(duì)截距進(jìn)行假設(shè)檢驗(yàn)通常沒(méi)什么作用庞钢。
然而拔恰,對(duì)每個(gè) x 變量進(jìn)行假設(shè)檢驗(yàn),測(cè)試所涉及的兩組為:總體斜率等于 0 vs. 參數(shù)不等于 0 的其它情況(對(duì)立假設(shè))基括。因此颜懊,如果斜率不等于 0 (即對(duì)立假設(shè)為真),那我們就能證明與那個(gè)系數(shù)有關(guān)的 x 變量與反應(yīng)變量間有具統(tǒng)計(jì)顯著性的線性關(guān)系风皿,也就意味著 x 變量能幫我們預(yù)測(cè)反應(yīng)變量 (或者河爹,最起碼意味著模型里有 x 變量比沒(méi)有好)。
決定系數(shù) 即相關(guān)系數(shù)的平方桐款。
決定系數(shù)變量通常定義為模型中能以 x 變量解釋的反應(yīng)變量的變化范圍咸这。通常來(lái)說(shuō),決定系數(shù)越接近 1魔眨,模型就越擬合數(shù)據(jù)媳维。
很多人覺(jué)得決定系數(shù)不是個(gè)很好的衡量標(biāo)準(zhǔn) (他們可能是對(duì)的),不過(guò)我想說(shuō)遏暴,我們所使用的任何衡量模型數(shù)據(jù)擬合度的方法侄刽,都可借助交叉驗(yàn)證來(lái)判斷其準(zhǔn)確性。這里 是一位朋友的文章朋凉,里面就用交叉驗(yàn)證探討了他覺(jué)得決定系數(shù)不好的原因州丹。
R值可變性
十五、多元線性回歸
1杂彭、多元線性回歸
可觀看可汗學(xué)院線性代數(shù)免費(fèi)課程學(xué)習(xí)線性代數(shù)相關(guān)知識(shí)墓毒。
用python求多因素的線性回歸,就是把所有影響因素都加進(jìn)去,分類變量會(huì)報(bào)錯(cuò)亲怠。
這一部分主要是為了解釋所计,為什么會(huì)出現(xiàn)這個(gè)結(jié)果,這個(gè)結(jié)果的來(lái)源是怎么求的团秽,這部分求解我看不懂主胧。钾腺。。讥裤。。先記下來(lái)??
2姻报、虛擬變量
要往線性模型里添加分類變量己英,就需要把分類變量轉(zhuǎn)變?yōu)?虛擬變量。轉(zhuǎn)化后吴旋,你需要舍棄一個(gè) 虛擬列损肛,才能得到 滿秩 矩陣。
如果你要用 0 荣瑟、1 編碼來(lái)創(chuàng)建虛擬變量治拿,你就得舍棄一個(gè)虛擬列,確保所得矩陣是滿秩的(這樣你從 python 里得到的解才會(huì)是可靠的笆焰。)
之所以要這么做劫谅,原因就在于線性代數(shù)的本質(zhì),更具體地說(shuō)嚷掠,要逆轉(zhuǎn)矩陣捏检,你手里的矩陣必須是滿秩的 (也就是所有列都得線性獨(dú)立),因此不皆,你得舍棄掉一個(gè)虛擬列贯城,方能得到線性獨(dú)立的各列 (和一個(gè)滿秩矩陣)。
把虛擬變量添加到線性模型中
首先需要把分類變量進(jìn)行分出獨(dú)立的列:
pd.get_dummies()
視頻曾提到 統(tǒng)計(jì)學(xué)習(xí)簡(jiǎn)介 一書(shū)霹娄,其中就提到了如下五個(gè)假設(shè):
- 因變量-自變量關(guān)系的非線性
- 誤差項(xiàng)的相關(guān)性
- 非恒定方差和正態(tài)分布誤差
- 異常值/高杠桿點(diǎn)
-
共線性
相關(guān)誤差
如果我們是隨時(shí)間變化來(lái)收集的數(shù)據(jù)(比如預(yù)測(cè)未來(lái)股價(jià)或利率)能犯,或數(shù)據(jù)與空間有關(guān)(如預(yù)測(cè)洪澇或干旱地區(qū)),那就很容易出現(xiàn)相關(guān)誤差犬耻。通常踩晶,我們可以用過(guò)去數(shù)據(jù)點(diǎn)提供的信息(針對(duì)與時(shí)間有關(guān)的數(shù)據(jù))或用相鄰數(shù)據(jù)點(diǎn)提供的信息(針對(duì)與空間有關(guān)的數(shù)據(jù))來(lái)提高預(yù)測(cè)結(jié)果。
不考慮相關(guān)誤差的主要問(wèn)題在于:往往你會(huì)利用這一相關(guān)性香追,得到更好的未來(lái)事件預(yù)測(cè)數(shù)據(jù)或空間關(guān)聯(lián)事件預(yù)測(cè)數(shù)據(jù)合瓢。
要判斷是否有相關(guān)誤差,最常用的方法是觀察收集數(shù)據(jù)的域透典。要是你不確定的話晴楔,你可以試試一個(gè)叫 Durbin-Watson 的檢驗(yàn)方法,人們常用該測(cè)試來(lái)評(píng)估誤差相關(guān)性是否造成問(wèn)題峭咒。還有 ARIMA 或 ARMA 模型税弃,人們常用這兩個(gè)模型來(lái)利用誤差相關(guān)性,以便做出更佳預(yù)測(cè)凑队。
非恒定方差和正態(tài)分布誤差
你預(yù)測(cè)的值不同则果,得到的預(yù)測(cè)值范圍也不同幔翰,那就意味著方差不恒定。非恒定方差對(duì)預(yù)測(cè)好壞影響不大西壮,但會(huì)導(dǎo)致置信區(qū)間和 p 值不準(zhǔn)確遗增,這種時(shí)候,在預(yù)測(cè)值接近實(shí)際值的那部分區(qū)域款青,系數(shù)的置信區(qū)間會(huì)太泛做修,而在預(yù)測(cè)值較遠(yuǎn)離實(shí)際值的區(qū)域則會(huì)太窄。
通常來(lái)說(shuō)抡草,對(duì)數(shù)函數(shù)(或使用其它反應(yīng)變量的變換方式)能夠 “擺脫” 非恒定方差饰及,而要選擇合適的變換方式,我們一般會(huì)用 Box-Cox康震。
用預(yù)測(cè)值的殘差圖也可以評(píng)估非恒定方差燎含。在本頁(yè)底部的圖片中,非恒定方差的標(biāo)簽為 異方差腿短。理想來(lái)說(shuō)屏箍,我們要的是一個(gè)有異方差殘差的無(wú)偏模型(其異方差殘差在一定數(shù)值范圍內(nèi)保持不變)。
雖然本文并不探討殘差的正態(tài)性橘忱,如果你想創(chuàng)建可靠的置信區(qū)間铣除,正態(tài)性回歸假設(shè)就十分重要了,更多相關(guān)信息詳見(jiàn) 這里鹦付。
異常值/杠桿點(diǎn)
異常值和杠桿點(diǎn)是遠(yuǎn)離數(shù)據(jù)正常趨勢(shì)的點(diǎn)尚粘。這些點(diǎn)會(huì)對(duì)你的解造成很大的影響,在現(xiàn)實(shí)中敲长,這些點(diǎn)甚至可能是錯(cuò)誤的郎嫁。如果從不同來(lái)源收集數(shù)據(jù),你就可能在記錄或收集過(guò)程中造成某些數(shù)據(jù)值出錯(cuò)祈噪。
異常值也可能是準(zhǔn)確真實(shí)的數(shù)據(jù)點(diǎn)泽铛,而不一定是測(cè)量或數(shù)據(jù)輸入錯(cuò)誤。在這種情況下辑鲤,'修復(fù)'就會(huì)變得更為主觀盔腔。要如何處理這些異常值往往取決于你的分析目的。線性模型月褥,特別是使用最小二乘法的線性模型弛随,比較容易受到影響,也就是說(shuō)宁赤,大異常值可能會(huì)大幅度地左右我們的結(jié)果舀透。當(dāng)然,異常值也有一些解決技巧决左,也就是我們常說(shuō)的 正則化愕够。本課不會(huì)談及這些技巧走贪,但在 機(jī)器學(xué)習(xí)納米學(xué)位免費(fèi)課程中,我們對(duì)這些技巧做了粗略的介紹惑芭。
而在賓夕法尼亞州立大學(xué)提供的完整回歸課程里坠狡,就有特別長(zhǎng)的篇幅在探討杠桿點(diǎn)的問(wèn)題,詳見(jiàn) 這里遂跟。
共線性(多重共線性)
如果我們的自變量彼此相關(guān)擦秽,就會(huì)出現(xiàn)多重共線性。多重共線性的一個(gè)主要問(wèn)題在于:它會(huì)導(dǎo)致簡(jiǎn)單線性回歸系數(shù)偏離我們想要的方向漩勤。
要判斷是否有多重共線性,最常見(jiàn)的辦法是借助二變量圖或 方差膨脹因子 (即 VIFs)缩搅。下一概念我們就要更深入地探討多重共線性越败,因而在此不做贅述。
(本節(jié)完)
多重共線性與VIF
#查看多個(gè)變量間的關(guān)系
import seaborn as sb
sb.pairplot(df[['變量1'硼瓣,'變量2','變量3']])
VIF
- 判斷方法:
當(dāng)方差膨脹因子> 10究飞,就會(huì)出現(xiàn)多重線性。
圖中堂鲤,R指的是變量之間的相關(guān)性亿傅,相關(guān)性越高,1-R部分就小瘟栖,1/1-R就越大葵擎。
3、高階項(xiàng)
4半哟、特征工程與特征選擇
Sebastian 和 Katie 講授的 這個(gè)機(jī)器學(xué)習(xí) 課程是個(gè)很好的學(xué)習(xí)途徑酬滤,能幫你更好地理解許多概念,也對(duì)你接下來(lái)更深入地理解機(jī)器學(xué)習(xí)很有幫助寓涨。
- 若要查看有關(guān)特征工程的 Sklearn 文獻(xiàn),請(qǐng)點(diǎn) 這里
- 有關(guān)在 pandas 里處理缺失值的其它文獻(xiàn),請(qǐng)點(diǎn) 這里氮采。
填充缺失數(shù)據(jù)
交叉驗(yàn)證
概念 k 折交叉驗(yàn)證由 Sebastian 的視頻講解塔插,這也屬于優(yōu)達(dá)學(xué)城的免費(fèi)課程,你可以點(diǎn) 這里 來(lái)學(xué)習(xí)該課程糯崎。本課由 Katie 講授几缭,所以有些參考不是很恰當(dāng),但他還是很好地解釋了交叉驗(yàn)證的工作原理沃呢。
模型評(píng)估
十六奏司、邏輯回歸
1、邏輯回歸
解釋結(jié)果
這兩節(jié)課涉及的一些概念可查看 機(jī)器學(xué)習(xí)納米學(xué)位課程 樟插。
精準(zhǔn)率韵洋、召回率
這里是邏輯回歸 sklearn 包的相關(guān)文獻(xiàn)竿刁,另外,這里是處理混淆矩陣的相關(guān)文獻(xiàn)搪缨。
以上就是實(shí)用統(tǒng)計(jì)學(xué)的所有內(nèi)容了食拜!這兩節(jié)課講的是多元線性回歸和邏輯回歸,但你看到的大多數(shù)內(nèi)容已經(jīng)開(kāi)始朝 數(shù)據(jù)科學(xué) 靠攏了副编,也就是說(shuō)负甸,大部分內(nèi)容已經(jīng)超越了多數(shù)日常 數(shù)據(jù)分析 的范疇了。不過(guò)痹届,我希望這兩節(jié)課的一些挑戰(zhàn)給你帶來(lái)了愉快的體驗(yàn)呻待。
這兩節(jié)課初步介紹的兩種辦法——多元線性回歸和邏輯回歸,只是監(jiān)督機(jī)器學(xué)習(xí)的一部分队腐。你可以從優(yōu)達(dá)學(xué)城免費(fèi)課程中了解更多蚕捉,又或者可以在機(jī)器學(xué)習(xí)納米學(xué)位課程 中查看項(xiàng)目回顧以及優(yōu)達(dá)學(xué)城的社區(qū)信息。
在本課中柴淘,我們學(xué)習(xí)了邏輯回歸迫淹,你學(xué)到了:
如何使用 python 來(lái)實(shí)現(xiàn)邏輯回歸,用 statsmodels 和 sklearn 包來(lái)預(yù)測(cè)二元分類反應(yīng)值为严。
如何解釋 statsmodels 邏輯回歸輸出的系數(shù)敛熬。
如何用多個(gè)指標(biāo)來(lái)評(píng)估模型效果。
如何在 python 里評(píng)估模型擬合效果第股。
你已經(jīng)學(xué)到了很多了应民!恭喜你!祝你在項(xiàng)目中取得好成績(jī)夕吻!
邏輯回歸 課程中 抽樣分布 的 notebook 方案和數(shù)據(jù)可見(jiàn)本頁(yè)底部瑞妇。