1赡茸、百分位數(shù):
以身高為例审葬,身高分布的第五百分位表示有5%的人的身高小于此測量值森缠,95%的身高大于此測量值拔鹰。
第p百分位數(shù)是這樣一個值,它使得至少有p%的數(shù)據(jù)項小于或等于這個值贵涵,且至少有(100-p)%的數(shù)據(jù)項大于或等于這個值列肢。
這樣理解:一組數(shù)據(jù)從小到大排,百分位數(shù)代表的值處于排列中的位置宾茂。
2瓷马、歸一化:
一、 歸一化的作用是:將數(shù)據(jù)去掉量綱的影響跨晴。簡單的講欧聘,由于數(shù)據(jù)單位不一致,故需將不同的數(shù)據(jù)進行格式化端盆,使之在指定的范圍內(nèi) (比如在0~1之間)怀骤。
二、歸一化方法:
1焕妙、線性函數(shù)轉(zhuǎn)換:y=(x-MinValue)/(MaxValue-MinValue)
說明:x蒋伦、y分別為轉(zhuǎn)換前、后的值访敌,MaxValue凉敲、MinValue分別為樣本的最大值和最小值。
2寺旺、對數(shù)函數(shù)轉(zhuǎn)換:y=lg(x)
說明:以10為底的對數(shù)函數(shù)轉(zhuǎn)換爷抓。
3、反余切函數(shù)轉(zhuǎn)換:y=atan(x)*2/pi
4阻塑、#### Z-score標準化方法 —— 針對正態(tài)分布的數(shù)據(jù)
這種方法給予原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化蓝撇。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0陈莽,標準差為1渤昌,轉(zhuǎn)化函數(shù)為:
為所有樣本數(shù)據(jù)的均值,3独柑、智奇真的好聰明啊(╥╯^╰╥) 人和人的智商差別真是蠻大的。私植。忌栅。——?曲稼?索绪?我什么時候?qū)懙倪@個:薄!瑞驱!他就是大傻X娘摔。。唤反〉仕拢口亨~~~ 2018/7/17
4、- 召回率R:用實際檢索到相關文檔數(shù)作為分子拴袭,所有相關文檔總數(shù)作為分母读第,即R = A / ( A + C )
- 精度P:用實際檢索到相關文檔數(shù)作為分子,所有檢索到的文檔總數(shù)作為分母拥刻,即P = A / ( A + B )
舉例來說:
一個數(shù)據(jù)庫有500個文檔怜瞒,其中有50個文檔符合定義。系統(tǒng)檢索到75個文檔般哼,但是實際只有45個符合定義吴汪。則:
召回率R=45/50=90%
精度P=45/75=60%
F1分數(shù)(F1 score),又叫平衡F分數(shù)(balanced F Score)蒸眠,定義為召回率和精度的調(diào)和平均數(shù)漾橙。
Generally,定義Fβ分數(shù)為:
除了 F1 分數(shù)之外楞卡,F(xiàn)2 分數(shù)和 F0.5 分數(shù)在統(tǒng)計學中也得到大量的應用霜运。其中,F(xiàn)2 分數(shù)中蒋腮,召回率的權重高于準確率淘捡,而 F0.5 分數(shù)中,準確率的權重高于召回率池摧。在合并的過程中焦除,召回率的權重是準確率的 β 倍
G分數(shù)是另一種統(tǒng)一準確率和召回率的系統(tǒng)性能評估標準。
F分數(shù)是準確率和召回率的調(diào)和平均數(shù)作彤,G分數(shù)被定義為準確率和召回率的幾何平均數(shù)膘魄。
5、第一個階段是竭讳,做出各種相關或者不相關的但是有意義的統(tǒng)計指標创葡;
第二個階段是,定義任務绢慢,從各種統(tǒng)計指標中找出“可能”與任務有關聯(lián)的指標蹈丸,從視覺上看
第三個階段是,基于這些指標和任務的目標(比如養(yǎng)豬收益最大呐芥,或者養(yǎng)豬存活率最高)做優(yōu)化函數(shù)逻杖,我們的客戶的任務或者目標可能是很發(fā)散。
我們要先把第一個階段做多思瘟,把第二個階段中的代表性任務定義出來荸百。
然后才去搞第三個階段的方法。
6滨攻、數(shù)據(jù)不均衡的問題:http://ai.51cto.com/art/201703/535736.htm#topx