15分鐘掌握12個(gè)極簡統(tǒng)計(jì)學(xué)分析方法- 玩好一二三四五就能上山打老虎
程曉華
2022-6-12
我的新書《全面庫存管理數(shù)學(xué)分析》上市后似踱,很多讀者反饋說“看不懂”浙滤。這件事一直搞得我很郁悶绒瘦,但我也很理解,其實(shí)很多人找筝,也包括我在內(nèi)囚企,上大學(xué)的時(shí)候的3門“高等數(shù)學(xué)”(高等數(shù)學(xué)畜伐、線性代數(shù)馍惹、概率與數(shù)理統(tǒng)計(jì),一般工科生的必修課玛界,在這里万矾,包括在我的書里統(tǒng)稱“高等數(shù)學(xué)”)可能都沒有學(xué)好,光去應(yīng)付考試了慎框,考完了也就完了良狈,根本談不上應(yīng)用的問題,尤其是工作時(shí)間一長笨枯,除了會(huì)算個(gè)平均值但也懶得算之外薪丁,其他的都還給老師了。
但是馅精,從事供應(yīng)鏈管理工作严嗜,尤其是做最核心的供應(yīng)鏈計(jì)劃管理,必須要跟數(shù)據(jù)打交道洲敢,要不斷地分析數(shù)據(jù)漫玄,挖掘并提煉其背后可能存在的有價(jià)值的信號(hào),必要的時(shí)候压彭,還可能還需要我們自己用Excel睦优、R語言等工具做一些簡單的統(tǒng)計(jì)預(yù)測之類的工作,這就不可避免地就要用到一些所謂的“高等數(shù)學(xué)”的知識(shí)壮不,盡管很簡單汗盘,但是,你必須要熟練掌握忆畅,達(dá)到熟能生巧的程度衡未。
如果說《全面庫存管理數(shù)學(xué)分析》讓你感到頭疼的話,我建議你先耐著性子家凯,結(jié)合Excel缓醋,花個(gè)十幾分鐘的時(shí)間,把我這篇文章看完绊诲,如果你能產(chǎn)生一些興趣送粱,你就可以繼續(xù)去讀我那本書,學(xué)到更多的實(shí)用數(shù)據(jù)分析工具和方法論掂之,但如果你連這個(gè)都沒有興趣抗俄,甚至是連這個(gè)東西也搞不懂脆丁,那書不讀也罷。
我們小時(shí)候都知道的一首兒歌动雹,叫“一二三四五槽卫,上山打老虎”,我們這里就用y=(1,2,3,4,5)這組數(shù)來舉例子胰蝠,我相信歼培,你如果真正能夠搞懂了這個(gè)一二三四五,你就真的敢上山打老虎(玩供應(yīng)鏈數(shù)據(jù)分析工作)了茸塞!
我們假設(shè)這個(gè)y=(1,2,3,4,5)是某個(gè)公司過去1~5月份(即x =(1,2,3,4,5))的出貨量躲庄,這里的x代表時(shí)間、期間钾虐,y代表期間出貨量噪窘。
我在這里一共列了12個(gè)小問題,代表12個(gè)數(shù)學(xué)公式及數(shù)據(jù)分析方法論:
1. 過去5個(gè)月的出貨(算術(shù))平均值(average / mean)
這個(gè)問題很簡單效扫,估計(jì)99.999%的人都會(huì)算倔监,答案是(1+2+3+4+5)/5=3,對(duì)應(yīng)的Excel函數(shù)公式是average( )菌仁。
但大家不要小看這個(gè)簡單的算術(shù)平均值(簡稱均值)計(jì)算丐枉,這是你對(duì)客戶需求做到心中有“數(shù)”的第一步,這也是我的書第一章反復(fù)強(qiáng)調(diào)的內(nèi)容 – 平均值很重要掘托。
按照我個(gè)人在供應(yīng)鏈管理領(lǐng)域管人瘦锹、管事的經(jīng)驗(yàn)來看,如果你能不看電腦闪盔、手機(jī)弯院,隨口就能說出你所負(fù)責(zé)的某個(gè)產(chǎn)品、SKU或者型號(hào)的每周的大概的平均需求泪掀,你就基本上是做到了心中有“數(shù)”听绳。
你可以馬上用這個(gè)“均值”測測你周圍的人,結(jié)果可能會(huì)讓你會(huì)很失望异赫!
2. 截尾(0.2)平均值(trimmed mean)
知道這個(gè)所謂的截尾平均值的人會(huì)有多少呢椅挣?我心里沒太有個(gè)數(shù),因?yàn)樗绻皇菍W(xué)習(xí)R語言鼠证,我以前也不知道有這么個(gè)東西,所以靠抑,我就相信很多人也不知道(我這是在做“極大似然估計(jì)(Maximum Likelihood Estimation量九, MLE)”,《全面庫存管理數(shù)學(xué)分析》第四章的內(nèi)容),盡管很多人都聽說過它的應(yīng)用荠列,類似“去掉一個(gè)最高分类浪,去掉一個(gè)最低分,大S的得分是 ……”肌似。
這個(gè)定義在供應(yīng)鏈管理中也是很有用的费就,譬如在評(píng)估客戶歷史需求的時(shí)候,我們可能人為地去掉那些看似不正常的極大值川队、極小值受楼,至于比例,你自己決定呼寸,Excel公式是 trimmean( ),其中trim本身有修剪的意思猴贰,mean其實(shí)跟average一樣对雪,都是平均值的意思,至于為什么在Excel里面它不是用trimaverage( )來做這個(gè)表達(dá)式米绕,我們就不得而知了瑟捣。
我們這個(gè)例子y=(1,2,3,4,5),數(shù)據(jù)量很小栅干,數(shù)據(jù)本身也很整齊迈套,無論是trim=0.2還是0.1, 0.3, 0.4,結(jié)果都是3碱鳞,但如果你把那個(gè)5換成6桑李,再試一下這四個(gè)比例,它們的結(jié)果就不一樣了窿给。如果你感興趣的話贵白,可以模擬更多的數(shù)據(jù)看看這個(gè)公式到底是表達(dá)了什么意思。
3. 中位值(Median)
顧名思義崩泡,所謂的中位值就是處于序列中間位置的那個(gè)值禁荒,在我們這個(gè)例子中,一共有5個(gè)數(shù)角撞,3就是那個(gè)中位值呛伴,因?yàn)樗懊鎯蓚€(gè)哥哥,后面有兩個(gè)妹妹谒所,它是老三嘛热康!
中位值的Excel公式是median()。
我的理解劣领,這個(gè)中位值還有保持“中立”的意思褐隆,它不管哥哥妹妹們?cè)趺春[,它還是它剖踊,永遠(yuǎn)保持不變庶弃。它不像那個(gè)算術(shù)平均值average衫贬,屬于墻頭草性質(zhì),哥哥妹妹們一鬧騰歇攻,它也跟著折騰固惯,所以它才有個(gè)外號(hào)叫“被平均”。譬如說缴守,你把這個(gè)12345改成12346葬毫,中位值還是3,但平均值就從3變成了3.2了屡穗。所以贴捡,很多時(shí)候,我們寧肯相信那個(gè)中位值村砂,因?yàn)檫@個(gè)平均值不太靠譜烂斋,據(jù)說還害死過人呢!我也是聽說的:一個(gè)大個(gè)子的統(tǒng)計(jì)學(xué)家在一條平均水深不到1米的河里被淹死了础废。
比較理想的情況是這個(gè)中位值和平均值是一樣的汛骂,或者差不多大小,這樣的數(shù)據(jù)結(jié)構(gòu)分布一般是比較好评腺,甚至可能就是傳說中的正態(tài)分布帘瞭。
4. 四分位差(Interquartile Range, IQR)
在分析一組數(shù)據(jù)、一個(gè)時(shí)間序列的時(shí)候蒿讥,我們通车睿可以把數(shù)據(jù)平均分成4段,這樣每段數(shù)據(jù)占總數(shù)據(jù)個(gè)數(shù)的25%芋绸,估計(jì)這個(gè)“四分”就是這個(gè)意思祸轮,而“四分”之后,自然就是“五裂”侥钳,也就是4段5個(gè)點(diǎn)适袜,而這5個(gè)點(diǎn)我們可以分別命名為Q0, Q1, Q2, Q3, Q4,Q0最邢隙帷(min)苦酱,Q4最大(max),其它幾個(gè)分別處于25%给猾,50%疫萤,75%的位置,如此以來敢伸,那個(gè)Q2就是老三扯饶,但奇怪的是,這里的Q2是指平均值(average),不是指那個(gè)中位值尾序,我猜可能是統(tǒng)計(jì)學(xué)家們搞錯(cuò)了:其他幾個(gè)兄弟姐妹談的都是“位置”上的數(shù)嘛钓丰!干嘛這個(gè)Q2就非得是個(gè)平均值呢?
所謂四分位差(Interquartile Range每币,IQR)就是IQR=Q3 – Q1 携丁,在我們這個(gè)12345的例子里,IQR= Q3 - Q1= 4 -2 = 2兰怠。
在Excel里面有一種圖形叫箱型圖(boxplot)梦鉴,其原理就是這個(gè)IQR。只是這個(gè)箱子的中間是中位值揭保,而不是那個(gè)Q2(平均值)肥橙,這跟我理解的是一個(gè)意思,Q2就應(yīng)該該是個(gè)中位值嘛秸侣!但很討厭的是存筏,這個(gè)箱子的兩邊并不嚴(yán)格等于Q1,Q4塔次,箱子上下還有兩條邊界線,本來它們就應(yīng)該是我們下面提到的最小名秀、最大異常值励负,但它實(shí)際上卻是Q0,Q4匕得,這也是我非常不理解的地方 – 這樣的話继榆,這個(gè)箱式圖還有多大的意義呢?我理想中的箱式圖應(yīng)該是這樣的:箱體中間是Q2或中位值汁掠,上下蓋則是Q1 略吨,Q3 ,以此來顯示數(shù)據(jù)的集中范圍考阱,或者是表示數(shù)據(jù)“應(yīng)該的分布”范圍翠忠;上下蓋之外伸出的兩條天線則應(yīng)該分別是最大、最小異常值乞榨,以此圈定來“正常值范圍”秽之,天線之外的則是異常值。我之所以這么認(rèn)為是因?yàn)閺墓?yīng)鏈管理角度吃既,最大值(max)考榨、最小值(min)是沒所謂的,它們本身并不能代表是正常還是異常鹦倚,我們更關(guān)心的是所謂的異常河质,因?yàn)楣?yīng)鏈管理有所謂“非正常需求(Abnormal Demand)”這一說。
下面我們就來談?wù)勥@個(gè)問題。
5. 異常值(Outlier, 最小異常值掀鹅、最大異常值)
所謂異常就是不正常散休,而正常與不正常是相對(duì)而言的,既然是相對(duì)而言淫半,那就得有個(gè)相對(duì)的尺度溃槐,這個(gè)尺度就是最大異常值及最小異常值,范圍內(nèi)的叫“正常值”科吭,范圍之外的則是異常值昏滴。
這個(gè)范圍定義為: Q2±1.5IQR。
針對(duì)我們的例子y =(1,2,3,4,5)对人,最大異常值就是Q2+1.5IQR=3+1.5×2=6谣殊,最小異常值就是Q2 - 1.5IQR=3 - 1.5×2=0,也就是說y里面沒有異常值牺弄。但如果把那個(gè)5換成6姻几,則6必是“異常”势告,感興趣的讀者可以用Excel套一下那個(gè)公式試試看蛇捌。
需要搞清楚的是,這個(gè)所謂的異常值跟第2個(gè)問題提到的截尾均值里面的那個(gè)“截尾”部分不是一個(gè)概念 – 被“截尾”掉的數(shù)值不一定是“異常值”咱台,而異常值則應(yīng)該是被截尾的對(duì)象络拌。關(guān)于這個(gè)結(jié)論,我自己并沒有進(jìn)行過嚴(yán)格的數(shù)學(xué)證明回溺,但大家不妨多弄一些奇奇怪怪的數(shù)字春贸,然后用Excel模擬驗(yàn)證一下看看。
6****.方差(Variance)
顧名思義遗遵,方差就是“差的平方”萍恕,統(tǒng)計(jì)學(xué)上的方差指一組數(shù)的中的每個(gè)數(shù)減掉其平均值之后的差的平方的平均值。
回到我們的例子y=(1车要,2允粤,3,4翼岁,5)维哈,其平均值是3,y-3之后的差為:(-2登澜,-1, 0, 1, 2)阔挠,差的平方為(4,1,0,1,4),其和為10脑蠕,其平均值為10/5=2或10/(5-1)=2.5购撼,都可以跪削,表現(xiàn)在Excel公式中,一個(gè)是var.p( )迂求,var.s( )碾盐,其中的p、s分別代表總體(population)揩局、樣本(sample)的意思毫玖。在實(shí)際應(yīng)用中,哪個(gè)都可以凌盯,因?yàn)樗鼈兪欠从硵?shù)據(jù)的相對(duì)離散程度付枫,不同的數(shù)組之間只要是用同一個(gè)公式進(jìn)行計(jì)算并對(duì)比衡量即可。
7. 標(biāo)準(zhǔn)差(Standard Deviation)
直接對(duì)方差開根號(hào)就得到標(biāo)準(zhǔn)差驰怎。針對(duì)我們的例子阐滩,我們可以得到的標(biāo)準(zhǔn)差就是根(2)=1.414或根(2.5)=1.581,或者用Excel公式 stdev.p( )县忌、stdev.s( )計(jì)算標(biāo)準(zhǔn)差掂榔,兩個(gè)結(jié)果都可以。
這個(gè)所謂的標(biāo)準(zhǔn)差其實(shí)就是傳說中的那個(gè)西格瑪(σ)症杏,一個(gè)σ 就是一個(gè)標(biāo)準(zhǔn)差装获。如果你認(rèn)為需求分布符合正態(tài)分布,均值±1σ 就能覆蓋68%左右的數(shù)據(jù)分布厉颤,均值±2σ 覆蓋95%左右的數(shù)據(jù)分布穴豫,均值±3σ 覆蓋99%左右的數(shù)據(jù)分布;如果你不認(rèn)為需求分布符合正態(tài)分布走芋,那就是隨機(jī)分布绩郎,但沒有關(guān)系潘鲫,即使這樣翁逞,均值±2σ 也能覆蓋87%左右的數(shù)據(jù)分布,均值±3σ 也能覆蓋95%左右的數(shù)據(jù)分布溉仑,這是根據(jù)馬爾可夫不等式(《全面庫存管理數(shù)學(xué)分析》第三章的內(nèi)容)得出的結(jié)論挖函。
8. 需求波動(dòng)率
標(biāo)準(zhǔn)差除以算術(shù)平均值就是所謂的波動(dòng)率,統(tǒng)計(jì)學(xué)上叫CV(Coefficient of Variation, 變異系數(shù))浊竟。這個(gè)CV對(duì)于我們分析客戶或市場需求非常重要怨喘,是需求分類的重要指標(biāo)之一。
針對(duì)我們的12345振定,其需求波動(dòng)率為1.414/3= 0.471或 1.581/3=0.527必怜。
同樣,這個(gè)需求波動(dòng)率是相對(duì)而言的后频,不同產(chǎn)品或者同一產(chǎn)品來自不同的客戶梳庆、不同的分銷中心暖途,其需求波動(dòng)率可能是不一樣的,在我的書《制造業(yè)全面庫存管理》里面膏执,這個(gè)波動(dòng)率被用來做XYZ分類驻售。
波動(dòng)率也是衡量需求聚集效應(yīng)的一個(gè)非常直觀的指標(biāo) – 被合并了的需求的波動(dòng)率小于合并前單個(gè)需求的波動(dòng)率之和。
9. 一階差分值(difference)
所謂的一階差分就是一組數(shù)內(nèi)部相減更米,老二減老大欺栗,老三減老二,減到最后即可征峦。很簡單迟几,我們的例子得到的一階差分結(jié)果就是(1,1,1,1)。
一階差分的意義是什么呢眶痰?
還是針對(duì)我們的例子瘤旨,y=(1,2,3,4,5)是一條斜線,而差分后的序列(1,1,1,1)則是一條水平的直線竖伯。從供應(yīng)鏈管理角度存哲,你是喜歡你的客戶給你的需求是斜線呢還是近似水平的直線好一些?
從統(tǒng)計(jì)預(yù)測角度七婴,不言而喻祟偷,水平的直線更好預(yù)測一些,因?yàn)樾枨笙鄬?duì)平穩(wěn)打厘。只是需要大家注意的是修肠,統(tǒng)計(jì)學(xué)上講的“平穩(wěn)”可能跟大家腦子里面想象的不太一致。這個(gè)平穩(wěn)的英文單詞是stationary户盯,它是指需求的移動(dòng)平均值相對(duì)穩(wěn)定嵌施,盡管一定期間內(nèi)的需求可能是起起伏伏的,但這個(gè)需求并沒有明顯的上升或下降的趨勢莽鸭,這就是“需求平穩(wěn)”吗伤,它跟 stable 不是一個(gè)意思,stable是指穩(wěn)定的意思硫眨,即每期需求大致相同足淆。
10. 需求的趨勢函數(shù)(trend function)
針對(duì)時(shí)間軸x=(1,2,3,4,5),出貨量y=(1,2,3,4,5)的函數(shù)表達(dá)式是什么礁阁?
我們可以用兩種方法得到結(jié)果巧号,一種是用Excel作折線圖,添加趨勢線姥闭,選擇“線性”丹鸿,顯示公式,我們得到 y=x棚品;另外一種方法也是在Ecxcel里面用 index(linest( ) )求出y=ax+b中的a的值為1靠欢,b=0弥姻。
函數(shù)與方程思想是數(shù)學(xué)思想寶庫的重要組成部分,供應(yīng)鏈管理也需要一些函數(shù)與方程思維(有關(guān)這部分掺涛,包括后面兩個(gè)知識(shí)點(diǎn)的詳細(xì)內(nèi)容庭敦,大家可以參考《全面庫存管理數(shù)學(xué)分析》第六章)。
11. 需求函數(shù)的一階導(dǎo)數(shù)(derivation)
需求函數(shù)是 y=x薪缆,其一階導(dǎo)數(shù)就是 y’=1秧廉,如果你跟第9個(gè)問題聯(lián)系起來看,你就會(huì)發(fā)現(xiàn)拣帽,這個(gè)一階導(dǎo)數(shù)跟一階差分值是相等的疼电,都是1,這是為什么呢减拭?
道理很簡單蔽豺,不是很嚴(yán)謹(jǐn)?shù)睦斫猓瑹o限差分就是微分拧粪,微分之后即可求導(dǎo)數(shù)修陡。無論是一階差分還是這個(gè)一階導(dǎo)數(shù),都是表示需求的增長速度可霎。
12. 預(yù)測第6期的需求值魄鸦。
有了前面的工作,這個(gè)第6期癣朗,即6月份的需求預(yù)測就很簡單了拾因。我們可以用三種方法來完成這個(gè)統(tǒng)計(jì)預(yù)測:
一是差分預(yù)測法:根據(jù)第9個(gè)問題點(diǎn),我們得到的差分序列是(1,1,1,1)旷余,是一條水平的直線绢记,那么,很自然地正卧,我們就“趨勢外推”蠢熄,運(yùn)用差分的方程 y6-y5=y6-5=1 求得 y6=5+1=6。
第二種方法是利用趨勢函數(shù):y=x穗酥,當(dāng)x=6的時(shí)候护赊,y=x=6
第三種方法則是利用一階導(dǎo)數(shù):我們知道該函數(shù)的一階導(dǎo)數(shù)就是代表著需求增速惠遏,而這個(gè)值是1砾跃,那么,同樣很自然地节吮,我們用 y5 + 1 =y6 = 5+1 = 6抽高。
當(dāng)然,簡單省事的統(tǒng)計(jì)預(yù)測方法還有平均值法透绩,即y6 = 3或者干脆取上一期的值作為下一期的預(yù)測翘骂,即y6 =y5=5壁熄。
除此之外,你也可以考慮用移動(dòng)平均法碳竟,包括我在一篇文章里提到的“自然加權(quán)平均法”來預(yù)測這個(gè)6月份的需求草丧。
但是,無論哪個(gè)預(yù)測結(jié)果莹桅,還是那句話昌执,對(duì)于統(tǒng)計(jì)預(yù)測,你信則有之诈泼,不信則無懂拾。
【寫在結(jié)尾處】
我相信,絕大多數(shù)的讀者都是可以搞得懂這12個(gè)知識(shí)點(diǎn)的铐达,但是岖赋,從搞得懂,到用得上瓮孙,再到用得熟唐断,甚至是用出彩兒來,這可能需要一個(gè)過程杭抠,你不下點(diǎn)功夫是不行的栗涂。所以,不要小瞧這個(gè)12345祈争,弄好了斤程,你一樣可以用它去打老虎!你甚至可以認(rèn)為菩混,這就是《全面庫存管理數(shù)學(xué)分析》的極簡版本忿墅。
另外,我在問卷星上把這12個(gè)知識(shí)點(diǎn)做成了考試題沮峡,鏈接如下疚脐,有時(shí)間可以邀請(qǐng)你周邊的同事、朋友邢疙,尤其是你的老板們做做看棍弄,也好順便測測他們的智商。
https://ks.wjx.top/vm/YDIAWDg.aspx
作者程曉華(John Cheng)疟游,全面庫存管理(TIM)咨詢獨(dú)立顧問呼畸,《制造業(yè)庫存控制技術(shù)與策略》課程創(chuàng)始人、講師颁虐,《制造業(yè)庫存控制技巧》蛮原、《首席物料官(網(wǎng)絡(luò))》、《決戰(zhàn)庫存》另绩、《制造業(yè)全面庫存管理》儒陨、《全面庫存管理數(shù)學(xué)分析(2022年1月已經(jīng)上市花嘶,京東、當(dāng)當(dāng)網(wǎng)等皆有售)》著作者蹦漠,郵箱:johnchengbj@126.com TIM訂閱號(hào):ITOOTD