統(tǒng)計(jì)學(xué)是人工智能的基礎(chǔ)知識(shí),也是投資領(lǐng)域的核心技能垒在。
描述統(tǒng)計(jì)學(xué)即對(duì)大量信息進(jìn)行歸納。數(shù)據(jù)越多扔亥,事實(shí)越模糊场躯,所以需要對(duì)已有信息進(jìn)行簡(jiǎn)化,將一系列復(fù)雜的數(shù)據(jù)減少為幾個(gè)能起到關(guān)鍵作用的數(shù)字旅挤。如奧運(yùn)會(huì)的體操比賽中踢关,將一套高難度的復(fù)雜動(dòng)作簡(jiǎn)化成為一個(gè)得分。如上所述粘茄,描述統(tǒng)計(jì)學(xué)即將一系列復(fù)雜的數(shù)據(jù)減少為幾個(gè)能夠起到描述作用的數(shù)字签舞,用這些有代表性的數(shù)字來(lái)代表這個(gè)數(shù)據(jù)集秕脓,這樣當(dāng)我們面對(duì)一大堆數(shù)據(jù)的時(shí)候,在不知道所有數(shù)據(jù)信息的情況下就能知道這個(gè)數(shù)據(jù)集的整體情況儒搭。
描述統(tǒng)計(jì)學(xué)的關(guān)鍵點(diǎn)在于找到幾個(gè)關(guān)鍵的數(shù)字吠架,來(lái)描述數(shù)據(jù)集的整體情況。
描述數(shù)據(jù)集的4個(gè)常用指標(biāo):平均值搂鲫,四分位數(shù)傍药,標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)分魂仍。
①平均值:
不能代表數(shù)據(jù)集的整體情況(平均值的缺點(diǎn)是對(duì)異常數(shù)值不敏感拐辽,當(dāng)數(shù)據(jù)中有異常值時(shí),用平均值來(lái)描述數(shù)據(jù)是不準(zhǔn)確的)——即不能用人均收入來(lái)衡量國(guó)內(nèi)各行業(yè)的平均收入
②四分位數(shù)(與中位數(shù)有重要關(guān)系擦酌,可以從整體上描述出數(shù)據(jù)集的分布狀態(tài)俱诸,但是卻無(wú)法顯示數(shù)據(jù)集的波動(dòng)幅度):
中位數(shù)的計(jì)算:
1)按從小到大的順序排列數(shù)據(jù)
2)計(jì)算中間位置:
a.如果n是奇數(shù),則中位數(shù)是位于中間的數(shù)值
b.如果n是偶數(shù)赊舶,則中位數(shù)是中間兩個(gè)數(shù)的平均值
四分位數(shù)的計(jì)算:
1)求中位數(shù):
中位數(shù)左邊的數(shù)據(jù)都小于中位數(shù)睁搭,占全部數(shù)據(jù)的50%,中位數(shù)右邊的數(shù)據(jù)都大于中位數(shù)笼平,占全部數(shù)據(jù)的50%
2)求下四分位數(shù)园骆,上四分位數(shù):
求中位數(shù)左(右)邊數(shù)據(jù)的中位數(shù),得到下(上)四分位數(shù)出吹,下(上)四分位數(shù)將中位數(shù)左邊的數(shù)據(jù)一分為二
下四分位數(shù)遇伞、中位數(shù)、上四分位數(shù)將整個(gè)數(shù)據(jù)分成了4份捶牢,每一份數(shù)據(jù)的數(shù)目占整個(gè)數(shù)據(jù)集的25%
四分位數(shù)即下列5個(gè)數(shù)值:①下界(數(shù)據(jù)集最小的數(shù)值)②下四分位數(shù)Q1③中位數(shù)Q2④上四分位數(shù)Q3⑤上界(數(shù)據(jù)集最大的數(shù)值)
利用求出的四分位數(shù)做箱線圖:
①縱軸從下至上按順序排序鸠珠,畫(huà)出四分位五個(gè)數(shù)值的位置,即箱線圖
②箱線圖所描述的信息:
上界為22km秋麸,但中位數(shù)離下四分位數(shù)較近渐排,表明大部分?jǐn)?shù)據(jù)集中在箱線圖下端,即大部分?jǐn)?shù)據(jù)的值在下四分位數(shù)和中位數(shù)之間灸蟆,這樣通過(guò)四分位數(shù)和箱線圖可以了解數(shù)據(jù)集的整體情況
四分位數(shù)和箱線圖的應(yīng)用:
1.比較不同類別數(shù)據(jù)集的整體情況
上面的箱線圖是對(duì)不同城市數(shù)據(jù)分析師的薪酬比較驯耻,橫軸是對(duì)數(shù)據(jù)分析需求排名靠前的6個(gè)城市,縱軸是每月的薪酬炒考。通過(guò)比較可得可缚,6大城市的薪酬分布情況總體來(lái)說(shuō)比較集中。中間的紅線(中位數(shù))相差不多斋枢,深圳薪酬分布中位數(shù)大概為15k帘靡,居全國(guó)第一位;其次是北京瓤帚,大約是12.5k描姚;之后是上海和杭州
第二個(gè)箱線圖是不同經(jīng)驗(yàn)工作薪水的比較涩赢。
橫軸是工作年限,縱軸是薪酬轩勘。通過(guò)不同類別的數(shù)據(jù)比較發(fā)現(xiàn)筒扒,隨著工作年限的上升,薪資待遇的上升也非常明顯绊寻,尤其是3-5年提升的跨度非常大花墩。從現(xiàn)有的數(shù)據(jù)來(lái)看,數(shù)據(jù)分析師是一個(gè)長(zhǎng)期的職業(yè)方向榛斯,在10年內(nèi)大概不會(huì)因?yàn)槟挲g增長(zhǎng)而導(dǎo)致收入下降观游,反而會(huì)有急劇的上升搂捧。
使用Python來(lái)繪制箱線圖會(huì)比較方便驮俗。但現(xiàn)在重點(diǎn)在于理解箱線圖的原理和掌握如何應(yīng)用。
2.在數(shù)據(jù)集中識(shí)別出可能的異常值
有時(shí)候數(shù)據(jù)集中會(huì)包含一個(gè)或多個(gè)非常大或者非常小的數(shù)值允跑,這種極端的數(shù)值即為異常值王凑。
①識(shí)別出可能的異常值
②對(duì)異常值進(jìn)行檢查和處理(對(duì)找出的異常值的準(zhǔn)確性進(jìn)行進(jìn)一步檢查,從而確定如何處理這些異常值)
處理異常值通常有3種方法:
a.異常值可能是一個(gè)被錯(cuò)誤標(biāo)記記錄的數(shù)據(jù)值聋丝,如果是錯(cuò)誤的數(shù)據(jù)索烹,即在進(jìn)一步數(shù)據(jù)分析之前將其修正。如在全國(guó)人口統(tǒng)計(jì)中弱睦,出生了一個(gè)叫wsc的嬰兒百姓,wjl前來(lái)登記,但是手動(dòng)將wsc的性別輸入為女况木,這種情況下的異常值則需要進(jìn)一步核對(duì)然后將其修改過(guò)來(lái)垒拢。
b.異常值可能是一個(gè)被錯(cuò)誤包含在數(shù)據(jù)集中的值,這種情況刪除該異常值即可火惊。
c.異常值可能是一個(gè)反常的數(shù)據(jù)值求类,但該值為真實(shí)數(shù)值。即被正確記錄到數(shù)據(jù)集中屹耐,需保留尸疆。
如上所述,下面可以了解四分位數(shù)是如何識(shí)別出可能的異常值的:
該方法用于計(jì)算出數(shù)據(jù)集中的最小估計(jì)值和最大估計(jì)值惶岭,超過(guò)最小估計(jì)值和最大估計(jì)值范圍的數(shù)值即可能為異常值寿弱。
最小估計(jì)值和最大估計(jì)值的計(jì)算公式如上,可以根據(jù)不同的數(shù)據(jù)分析目的對(duì)k進(jìn)行取值按灶。若k=1.5症革,則取值在中度異常的范圍;若k=3兆衅,則去旨在極度異常的范圍地沮。
如下圖所示:
紅色部分為k=1.5時(shí)計(jì)算出的中度異常的范圍嗜浮,藍(lán)色部分為k=3時(shí)計(jì)算出的極度異常的范圍,超過(guò)這個(gè)范圍的數(shù)值即有可能為異常值摩疑。這樣即可以從大量數(shù)據(jù)中自動(dòng)識(shí)別出異常值危融。
下面為該方法應(yīng)用到的實(shí)際案例:
假設(shè)我們記錄了一個(gè)房間的溫度值,其中總共有12個(gè)數(shù)值雷袋,哪個(gè)數(shù)值可能為異常值呢吉殃。如圖中所示步驟:
1)對(duì)12個(gè)數(shù)值進(jìn)行從小到大的排序,計(jì)算出下四分位數(shù)Q1=70℃,上四分位數(shù)Q3=71.5℃;
2)將計(jì)算出的如上兩個(gè)數(shù)值代入異常值的計(jì)算公式删壮,在該實(shí)例中k取值為1.5翠语,經(jīng)過(guò)計(jì)算得到溫度的范圍是67.75-73.75℃,即超過(guò)該數(shù)值范圍的值為異常值狗热。該案例中超出范圍值為300℃,故其為異常值。如上巧娱,通過(guò)該公式可自動(dòng)識(shí)別出異常值。
3)進(jìn)一步檢驗(yàn)該值是否為異常值:
考慮到我們研究的物質(zhì)溫度不可能是300℃烘贴,一定是記錄有錯(cuò)誤禁添,所以我們將這個(gè)錯(cuò)誤記錄的數(shù)值在數(shù)據(jù)分析之前刪掉。
③標(biāo)準(zhǔn)差
應(yīng)用案例1:用標(biāo)準(zhǔn)差判斷NBA球員的穩(wěn)定性
在NBA中桨踪,用平均數(shù)據(jù)衡量球員的戰(zhàn)斗能力老翘,比如場(chǎng)均得分等。如下列出了NBA場(chǎng)均得分排名前十的球員锻离,現(xiàn)在需要考慮這樣一個(gè)問(wèn)題铺峭,如果你是教練,想知道哪位球員發(fā)揮最穩(wěn)定纳账,需要找到某種方法逛薇,能夠利用球員所得分?jǐn)?shù)的風(fēng)向性,判斷球員的穩(wěn)定程度疏虫。
首先了解什么是數(shù)據(jù)的波動(dòng)大杏婪!:
通常用離散程度和變異大小來(lái)表示數(shù)據(jù)集之間偏離平均值的程度。波動(dòng)大小可以直觀的代替離散程度這個(gè)專業(yè)術(shù)語(yǔ)卧秘。
如何衡量數(shù)據(jù)的波動(dòng)大心馗ぁ:
如果能夠算出數(shù)據(jù)集里的每個(gè)數(shù)值與平均值的某種平均距離,那么就有辦法來(lái)衡量該數(shù)據(jù)集的波動(dòng)大小翅敌。標(biāo)準(zhǔn)差是一個(gè)能夠幫助我們?cè)诒姸鄰?fù)雜的數(shù)據(jù)中發(fā)現(xiàn)事實(shí)的統(tǒng)計(jì)值羞福。通常用它來(lái)衡量數(shù)據(jù)相對(duì)于平均值的波動(dòng)大小。
標(biāo)準(zhǔn)差的計(jì)算(假設(shè)數(shù)據(jù)集中有3個(gè)數(shù)蚯涮,x1治专、x2卖陵、x3):
1)先計(jì)算方差:(每個(gè)數(shù)值-平均數(shù)μ)的平方之和/數(shù)據(jù)集總數(shù)n
如上得到各個(gè)數(shù)值與平均數(shù)的平均距離,為什么需要對(duì)(每個(gè)數(shù)值-平均數(shù)μ)做平方张峰,因?yàn)橛袝r(shí)候數(shù)量變化與平均值是反向偏離的泪蔫,即(每個(gè)數(shù)值-平均數(shù)μ)的結(jié)果會(huì)是負(fù)數(shù),平方后即可消除負(fù)號(hào)喘批。之后再求平均數(shù)時(shí)撩荣,每一個(gè)數(shù)值才不會(huì)被正負(fù)抵消掉,最后求出的平均值才能更好的體現(xiàn)出每次變化偏離平均值的情況饶深。最后求出平均值后還需要再做開(kāi)方餐曹,因?yàn)橹盀榱讼?fù)號(hào)進(jìn)行了平方,所以第二步要把求出的平均值開(kāi)方敌厘,將數(shù)值偏離平均值的幅度還原到原來(lái)的等量級(jí)台猴。方差開(kāi)方即為標(biāo)準(zhǔn)差σ,標(biāo)準(zhǔn)差描述了數(shù)據(jù)集在整體變化過(guò)程中偏離平均值的幅度额湘,即波動(dòng)大小卿吐,當(dāng)數(shù)據(jù)集中的數(shù)據(jù)量過(guò)大時(shí)旁舰,需要用專門(mén)的工具來(lái)快速計(jì)算出標(biāo)準(zhǔn)差锋华,上述公式是為了解釋標(biāo)準(zhǔn)差是怎么來(lái)的,對(duì)之后的應(yīng)用和理解會(huì)有很大幫助箭窜。
下圖為標(biāo)準(zhǔn)差應(yīng)用的實(shí)際案例毯焕,即用標(biāo)準(zhǔn)差衡量NBA球員的穩(wěn)定性(波動(dòng)大小):
詳解過(guò)程
方差=[(x1-μ)2+(x2-μ)2+...+(x10-μ)2]/n=[x12+...+x102-2μ(x1+x2+...+x10)]/n=[x12+...+x102+1000-20(7+9*2+10*4+11*2+13)]/10=[x12+...+x102+1000-2000]/10=(x12+...+x102)/10-1000=2.2
假設(shè)有3個(gè)球員平均得分都是10分磺樱,如果我們作為教練想知道哪個(gè)球員發(fā)揮更穩(wěn)定纳猫,則需要用到標(biāo)準(zhǔn)差來(lái)判斷。按照前面計(jì)算標(biāo)準(zhǔn)差的方法竹捉,可以快速計(jì)算出球員1加內(nèi)特的標(biāo)準(zhǔn)差為1.48芜辕,球員2庫(kù)里的標(biāo)準(zhǔn)差為7.02,球員3詹姆斯的標(biāo)準(zhǔn)差為1.73块差。下面通過(guò)比較3名球員的標(biāo)準(zhǔn)差來(lái)判斷誰(shuí)的發(fā)揮更穩(wěn)定侵续。
球員1的標(biāo)準(zhǔn)差最小,表示他的所有得分偏離平均值最近憨闰,即波動(dòng)性最小状蜗,發(fā)揮最穩(wěn)定。
球員2的標(biāo)準(zhǔn)差最大鹉动,波動(dòng)性最大轧坎,發(fā)揮最不穩(wěn)定。
標(biāo)準(zhǔn)差的兩個(gè)問(wèn)題:
1)標(biāo)準(zhǔn)差的單位與所計(jì)算數(shù)據(jù)的單位一致
2)標(biāo)準(zhǔn)差更大還是更小比較好取決于數(shù)據(jù)分析的目的泽示。如果研究的對(duì)象是生產(chǎn)機(jī)器的標(biāo)準(zhǔn)零件缸血,則需要標(biāo)準(zhǔn)差小一點(diǎn)蜜氨,這樣才能保證所有零件的大小一致,波動(dòng)性最猩有骸记劝;如果研究對(duì)象是一家大型公司的工資,則需要標(biāo)準(zhǔn)差大一點(diǎn)族扰,因?yàn)榇蠊镜墓べY會(huì)因?yàn)槁毼坏牟煌a(chǎn)生較大波動(dòng)性厌丑。
應(yīng)用案例2:用標(biāo)準(zhǔn)差衡量股票波動(dòng)大小
投資者在做決策時(shí)不僅要考慮預(yù)期回報(bào),還要分析比較投資風(fēng)險(xiǎn)渔呵。衡量股票波動(dòng)大小的工具即為標(biāo)準(zhǔn)差怒竿,標(biāo)準(zhǔn)差越大,說(shuō)明股票未來(lái)凈值變動(dòng)的程度可能比較大扩氢,風(fēng)險(xiǎn)也越高耕驰。
如下圖,假如有A和B兩家公司录豺,A公司10年內(nèi)的平均收益率為14%朦肘,標(biāo)準(zhǔn)差為10.6%;B公司平均收益率為14%双饥,標(biāo)準(zhǔn)差為12.8%媒抠。由于B公司的標(biāo)準(zhǔn)差更大,即股票波動(dòng)性更大咏花,所以B公司的股票風(fēng)險(xiǎn)比A公司大趴生,投資時(shí)要更謹(jǐn)慎。但投資股票需要考慮很多因素昏翰,標(biāo)準(zhǔn)差只是其中一個(gè)因素苍匆。
補(bǔ)充:夏普比率
夏普比率=(投資回報(bào)-無(wú)風(fēng)險(xiǎn)回報(bào))/投資組合的標(biāo)準(zhǔn)差
其中無(wú)風(fēng)險(xiǎn)回報(bào)即銀行存款或國(guó)庫(kù)券等穩(wěn)健的投資回報(bào)。夏普比率越高說(shuō)明投資相對(duì)而言回報(bào)越高棚菊,風(fēng)險(xiǎn)越低浸踩。下圖為近十年各國(guó)股指基金的夏普比率。
從圖中可以看到统求,美國(guó)的股市表現(xiàn)最好检碗,中國(guó)位列第二,在10年的時(shí)間里球订,美國(guó)股市盡管表現(xiàn)最好后裸,但夏普比率也僅為0.47,接近50%冒滩,說(shuō)明波動(dòng)性幾乎是回報(bào)的2倍微驶,即風(fēng)險(xiǎn)是回報(bào)2倍。中國(guó)和德國(guó)的風(fēng)險(xiǎn)幾乎是回報(bào)的5倍,其他發(fā)達(dá)國(guó)家?guī)缀鯖](méi)有回報(bào)而只有波動(dòng)性因苹。
④標(biāo)準(zhǔn)分(即相對(duì)排名——排名第幾):
標(biāo)準(zhǔn)分由平均值和標(biāo)準(zhǔn)差計(jì)算得到苟耻,如上圖,假設(shè)數(shù)據(jù)集只有3個(gè)數(shù)據(jù)x1扶檐,x2凶杖,x3,需要計(jì)算出x2在這個(gè)數(shù)據(jù)集中的相對(duì)位置款筑,即標(biāo)準(zhǔn)分智蝠。
1)標(biāo)準(zhǔn)分的計(jì)算:
標(biāo)準(zhǔn)分Z2=(x2-μ)/σ(標(biāo)準(zhǔn)差也叫Z分?jǐn)?shù)或標(biāo)準(zhǔn)化值)
2)標(biāo)準(zhǔn)分的意義:
標(biāo)準(zhǔn)分表示某個(gè)數(shù)值距離平均值多少個(gè)標(biāo)準(zhǔn)差,這樣可以知道數(shù)值和平均值的相對(duì)接近程度奈梳。如果某個(gè)數(shù)值的標(biāo)準(zhǔn)分等于0杈湾,則表示該數(shù)值等于平均值本身;如果某個(gè)數(shù)值的標(biāo)準(zhǔn)分大于0攘须,表示該數(shù)值大于平均值漆撞;如果某個(gè)數(shù)值的標(biāo)準(zhǔn)分小于0,表示該數(shù)值小于平均值于宙。如上圖浮驳,有99.5的數(shù)值在2個(gè)標(biāo)準(zhǔn)差范圍之內(nèi),距離中間平均值左(右)邊的數(shù)值小于(大于)平均值捞魁,故為2個(gè)標(biāo)準(zhǔn)差前加負(fù)號(hào)(正號(hào))至会。
應(yīng)用案例:質(zhì)量管理(6σ——即距離平均值6個(gè)標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)分為6)
在質(zhì)量管理中可以通過(guò)標(biāo)準(zhǔn)分知道數(shù)據(jù)偏離標(biāo)準(zhǔn)(即平均值)多大程度署驻,從而可以檢測(cè)出次品奋献。
股票漲跌幅的繪制: