內(nèi)容導(dǎo)入:
大家好,這里是海數(shù)據(jù)每天分析一點(diǎn)點(diǎn)谓松。本期介紹正態(tài)分布的基本原理與應(yīng)用,包括什么是分布践剂,正態(tài)分布的表達(dá)方式與特點(diǎn)鬼譬,再結(jié)合產(chǎn)品合格性檢驗(yàn)案例對(duì)3σ原則進(jìn)行應(yīng)用。文章內(nèi)容適合數(shù)據(jù)分析小白逊脯,內(nèi)容深入淺出优质,案例貼合實(shí)際。下期給大家介紹描述性統(tǒng)計(jì)分析與分布的關(guān)系军洼,歡迎大家關(guān)注巩螃。
概念介紹:
分布的概念:
數(shù)據(jù)分布,是指在統(tǒng)計(jì)分組的基礎(chǔ)上歉眷,將總體中各單位按組歸類(lèi)整理牺六,按一定順序排列,形成的總體中各單位在各組間的分布汗捡。其實(shí)質(zhì)是淑际,在各組按順序排列的基礎(chǔ)上,列出每個(gè)組的總體單位數(shù)扇住,形成一個(gè)數(shù)列春缕,稱(chēng)次數(shù)分布數(shù)列,簡(jiǎn)稱(chēng)分配數(shù)列艘蹋,各組的總體單位數(shù)叫次數(shù)或頻數(shù)锄贼。一般用次數(shù)分布表和次數(shù)分布圖來(lái)表示。數(shù)據(jù)分布的基礎(chǔ)是數(shù)據(jù)頻度分布表女阀。
我們可以扔 10,000 次骰子宅荤,每次骰子會(huì)產(chǎn)生 6 個(gè)可能的值,我們可以創(chuàng)建 6 個(gè)桶浸策。并記錄每個(gè)值出現(xiàn)的次數(shù)冯键。
由頻數(shù)分布表可以轉(zhuǎn)換為頻數(shù)分布圖,我們可以根據(jù)這些值作圖庸汗。所作曲線就是概率分布曲線惫确,目標(biāo)變量得到一個(gè)值的概率就是該變量的概率分布。
如何描述頻度分布圖的特點(diǎn)呢?
1改化、左邊數(shù)據(jù)多還是右邊數(shù)據(jù)多掩蛤?
2、左邊陡峭還是右邊陡峭陈肛?
3揍鸟、是否存在極大極小的離群值?
4燥爷、是‘凸’的還是‘凹’的蜈亩?
5懦窘、總體的形狀像什么前翎?
偏度:描述數(shù)據(jù)偏向,大數(shù)據(jù)多還是小數(shù)據(jù)多畅涂,刻畫(huà)的是中位數(shù)港华、眾數(shù)與平均值的關(guān)系;峰度:是‘凸’的還是‘凹’午衰,數(shù)據(jù)形狀立宜,陡峭程度偏度+峰度:刻畫(huà)數(shù)據(jù)離群值狀況。這些內(nèi)容在后期給大家介紹臊岸。
數(shù)據(jù)分布如果滿足一些特性橙数,就會(huì)轉(zhuǎn)變?yōu)檎龖B(tài)分布。正態(tài)分布是統(tǒng)計(jì)學(xué)應(yīng)用非常廣泛的分布圖形帅戒,接下來(lái)讓我們來(lái)看看吧灯帮。
正態(tài)分布的概念:
如果對(duì)概率分布作圖,得到一條倒鐘形曲線逻住,樣本的平均值钟哥、眾數(shù)以及中位數(shù)是相等的,那么該變量就是正態(tài)分布的瞎访。正態(tài)分布也被稱(chēng)為高斯分布腻贰。
若隨機(jī)變量服從一個(gè)位置參數(shù)為μ、尺度參數(shù)為σ的概率分布扒秸,且其概率密度函數(shù)為
正態(tài)分布播演,當(dāng)其平均值與標(biāo)準(zhǔn)差滿足一定條件時(shí),就會(huì)變成標(biāo)準(zhǔn)正態(tài)分布伴奥。當(dāng)
時(shí)写烤,正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布。表達(dá)方式為
正態(tài)分布的特點(diǎn):1渔伯、集中性顶霞。正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置;2选浑、對(duì)稱(chēng)性蓝厌。正態(tài)曲線以均數(shù)為中心,左右對(duì)稱(chēng)古徒,曲線兩端永遠(yuǎn)不與橫軸相交拓提;3、均勻變動(dòng)性隧膘。正態(tài)曲線由均數(shù)所在處開(kāi)始代态,分別向左右兩側(cè)逐漸均勻下降。
綜合應(yīng)用場(chǎng)景:
正態(tài)分布的應(yīng)用十分廣泛疹吃,比如假設(shè)檢驗(yàn)蹦疑、3σ異常值檢測(cè)等,這次先給大家介紹P值與3σ原則萨驶。
P值應(yīng)用案例:
P值是用來(lái)判定假設(shè)檢驗(yàn)結(jié)果的一個(gè)參數(shù)歉摧,也可以根據(jù)不同的分布使用分布的拒絕域進(jìn)行比較。如果P<0.01腔呜,說(shuō)明是較強(qiáng)的判定結(jié)果叁温,拒絕假定的參數(shù)取值。如果0.01<P值<0.05核畴,說(shuō)明較弱的判定結(jié)果膝但,拒絕假定的參數(shù)取值。如果P值>0.05谤草,說(shuō)明結(jié)果更傾向于接受假定的參數(shù)取值跟束。目前最常用的是0.05這個(gè)界限。
P值是什么呢咖刃?P值是標(biāo)準(zhǔn)正態(tài)分布的面積泳炉,標(biāo)準(zhǔn)正態(tài)分布面積為1,P值代表不合格的容忍度嚎杨。比如0.05這個(gè)界限花鹅,代表的是容忍5%以下的出錯(cuò)率。
? ? 不好理解對(duì)嗎枫浙?小海馬給大家準(zhǔn)備了通俗易懂的視頻刨肃,方便大家理解,視頻不長(zhǎng)箩帚,大家可以關(guān)注我們的微信公眾號(hào)進(jìn)行視頻的學(xué)習(xí)真友。
3σ應(yīng)用案例:
除了P值的應(yīng)用,3σ也是正態(tài)分布在生產(chǎn)中較為廣泛的應(yīng)用紧帕。3σ原則通常用于剔除數(shù)據(jù)異常值盔然,用樣本簡(jiǎn)單推定總體的方法桅打。應(yīng)用這個(gè)原則,是有條件的愈案,數(shù)據(jù)需要符合正態(tài)分布挺尾。σ是指什么呢?σ是指標(biāo)準(zhǔn)差站绪。
先假設(shè)一組檢測(cè)數(shù)據(jù)只含有隨機(jī)誤差遭铺,對(duì)其進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)偏差,按一定概率確定一個(gè)區(qū)間恢准,認(rèn)為凡超過(guò)這個(gè)區(qū)間的誤差魂挂,就不屬于隨機(jī)誤差而是粗大誤差,含有該誤差的數(shù)據(jù)應(yīng)予以剔除就得出3σ馁筐。
在正態(tài)分布中σ代表標(biāo)準(zhǔn)差,μ代表均值涂召。x=μ即為圖像的對(duì)稱(chēng)軸。
數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6826眯漩;
數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9544芹扭;
數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974麻顶;
可以認(rèn)為赦抖,數(shù)據(jù)的取值幾乎全部集中在(μ-3σ,μ+3σ)]區(qū)間內(nèi),超出這個(gè)范圍的可能性僅占不到0.3%辅肾。通常把等于±3σ的誤差作為極限誤差队萤,對(duì)于正態(tài)分布的隨機(jī)誤差,落在 ±3σ以外的概率只有0.27%矫钓,它在測(cè)量中發(fā)生的可能性很小要尔,故存在3σ準(zhǔn)則。
理論聽(tīng)著過(guò)于抽象新娜,我舉個(gè)例子赵辕。假設(shè)我廠今日生產(chǎn)出1000萬(wàn)個(gè)口罩,隨機(jī)抽樣3次概龄,每次抽樣10000進(jìn)行檢測(cè)还惠,使用3σ原則辨別這批口罩是否合格。
第一種情況:
第一次有5個(gè)不合格私杜;第二次有3個(gè)不合格蚕键;第三次有4個(gè)不合格。
數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974衰粹,不合格率容忍度為0.26%锣光,第一次不合格率為0.05%;第二次不合格率為0.03%铝耻;第三次不合格率為0.04%誊爹,均小于0.26%的標(biāo)準(zhǔn),因此抽樣是合格的。因?yàn)槭请S機(jī)抽樣频丘,樣本與總體的分布一致箍铭,因此我們合理推測(cè)總體是合格的。
第二種情況:
第一次有50個(gè)不合格椎镣;第二次有83個(gè)不合格诈火;第三次有101個(gè)不合格。
數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974状答,不合格率容忍度為0.26%冷守,第一次不合格率為0.5%;第二次不合格率為0.83%惊科;第三次不合格率為1.01%拍摇,均大于0.26%的標(biāo)準(zhǔn),因此抽樣是不合格的馆截。因?yàn)槭请S機(jī)抽樣充活,樣本與總體的分布一致,因此我們合理推測(cè)總體是不合格的蜡娶。
文字不夠直觀混卵,我們?cè)谖⑿殴娞?hào)上傳了視頻,大家如果還沒(méi)有理解透徹窖张,可以關(guān)注我們的微信公眾號(hào)觀看視頻幕随,會(huì)給你帶來(lái)新的感悟哦。
想獲取更多內(nèi)容宿接,請(qǐng)關(guān)注海數(shù)據(jù)公眾號(hào)赘淮。
本期分享到這里,我們會(huì)每天更新內(nèi)容睦霎,咱們下期再見(jiàn)梢卸,期待您的再次光臨。有什么建議副女,比如想了解的知識(shí)蛤高、內(nèi)容中的問(wèn)題、想要的資料肮塞、下次分享的內(nèi)容襟齿、學(xué)習(xí)遇到的問(wèn)題等,請(qǐng)?jiān)谙路搅粞哉碚浴H绻矚g請(qǐng)關(guān)注猜欺。