統(tǒng)計學相關tips

1赡茸、百分位數(shù):
以身高為例审葬,身高分布的第五百分位表示有5%的人的身高小于此測量值森缠,95%的身高大于此測量值拔鹰。
第p百分位數(shù)是這樣一個值,它使得至少有p%的數(shù)據(jù)項小于或等于這個值贵涵,且至少有(100-p)%的數(shù)據(jù)項大于或等于這個值列肢。
這樣理解:一組數(shù)據(jù)從小到大排,百分位數(shù)代表的值處于排列中的位置宾茂。

2瓷马、歸一化:
一、 歸一化的作用是:將數(shù)據(jù)去掉量綱的影響跨晴。簡單的講欧聘,由于數(shù)據(jù)單位不一致,故需將不同的數(shù)據(jù)進行格式化端盆,使之在指定的范圍內(nèi) (比如在0~1之間)怀骤。

二、歸一化方法:

1焕妙、線性函數(shù)轉(zhuǎn)換:y=(x-MinValue)/(MaxValue-MinValue)
說明:x蒋伦、y分別為轉(zhuǎn)換前、后的值访敌,MaxValue凉敲、MinValue分別為樣本的最大值和最小值。
2寺旺、對數(shù)函數(shù)轉(zhuǎn)換:y=lg(x)
說明:以10為底的對數(shù)函數(shù)轉(zhuǎn)換爷抓。
3、反余切函數(shù)轉(zhuǎn)換:y=atan(x)*2/pi
4阻塑、#### Z-score標準化方法 —— 針對正態(tài)分布的數(shù)據(jù)

這種方法給予原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化蓝撇。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0陈莽,標準差為1渤昌,轉(zhuǎn)化函數(shù)為:

其中

為所有樣本數(shù)據(jù)的均值,
clip_image008
為所有樣本數(shù)據(jù)的標準差走搁。

3独柑、智奇真的好聰明啊(╥╯^╰╥) 人和人的智商差別真是蠻大的。私植。忌栅。——?曲稼?索绪?我什么時候?qū)懙倪@個:薄!瑞驱!他就是大傻X娘摔。。唤反〉仕拢口亨~~~ 2018/7/17

4、
召回率VS精確率.png
  • 召回率R:用實際檢索到相關文檔數(shù)作為分子拴袭,所有相關文檔總數(shù)作為分母读第,即R = A / ( A + C )
  • 精度P:用實際檢索到相關文檔數(shù)作為分子,所有檢索到的文檔總數(shù)作為分母拥刻,即P = A / ( A + B )
    舉例來說:
    一個數(shù)據(jù)庫有500個文檔怜瞒,其中有50個文檔符合定義。系統(tǒng)檢索到75個文檔般哼,但是實際只有45個符合定義吴汪。則:
    召回率R=45/50=90%
    精度P=45/75=60%

F1分數(shù)(F1 score),又叫平衡F分數(shù)(balanced F Score)蒸眠,定義為召回率和精度的調(diào)和平均數(shù)漾橙。

F1 分數(shù).png

Generally,定義Fβ分數(shù)為:
Fβ分數(shù).png

除了 F1 分數(shù)之外楞卡,F(xiàn)2 分數(shù)和 F0.5 分數(shù)在統(tǒng)計學中也得到大量的應用霜运。其中,F(xiàn)2 分數(shù)中蒋腮,召回率的權重高于準確率淘捡,而 F0.5 分數(shù)中,準確率的權重高于召回率池摧。在合并的過程中焦除,召回率的權重是準確率的 β 倍

G分數(shù)是另一種統(tǒng)一準確率召回率的系統(tǒng)性能評估標準。

F分數(shù)是準確率和召回率的調(diào)和平均數(shù)作彤,G分數(shù)被定義為準確率和召回率的幾何平均數(shù)膘魄。

G分數(shù).png

5、第一個階段是竭讳,做出各種相關或者不相關的但是有意義的統(tǒng)計指標创葡;
第二個階段是,定義任務绢慢,從各種統(tǒng)計指標中找出“可能”與任務有關聯(lián)的指標蹈丸,從視覺上看
第三個階段是,基于這些指標和任務的目標(比如養(yǎng)豬收益最大呐芥,或者養(yǎng)豬存活率最高)做優(yōu)化函數(shù)逻杖,我們的客戶的任務或者目標可能是很發(fā)散。
我們要先把第一個階段做多思瘟,把第二個階段中的代表性任務定義出來荸百。
然后才去搞第三個階段的方法。

6滨攻、數(shù)據(jù)不均衡的問題:http://ai.51cto.com/art/201703/535736.htm#topx

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末够话,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子光绕,更是在濱河造成了極大的恐慌女嘲,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件诞帐,死亡現(xiàn)場離奇詭異欣尼,居然都是意外死亡,警方通過查閱死者的電腦和手機停蕉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門愕鼓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人慧起,你說我怎么就攤上這事菇晃。” “怎么了蚓挤?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵磺送,是天一觀的道長。 經(jīng)常有香客問我灿意,道長估灿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任脾歧,我火速辦了婚禮甲捏,結果婚禮上,老公的妹妹穿的比我還像新娘鞭执。我一直安慰自己司顿,他們只是感情好,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布兄纺。 她就那樣靜靜地躺著大溜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪估脆。 梳的紋絲不亂的頭發(fā)上钦奋,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機與錄音,去河邊找鬼付材。 笑死朦拖,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的厌衔。 我是一名探鬼主播璧帝,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼富寿!你這毒婦竟也來了睬隶?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤页徐,失蹤者是張志新(化名)和其女友劉穎苏潜,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體变勇,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡恤左,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了贰锁。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赃梧。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖豌熄,靈堂內(nèi)的尸體忽然破棺而出授嘀,到底是詐尸還是另有隱情,我是刑警寧澤锣险,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布蹄皱,位于F島的核電站,受9級特大地震影響芯肤,放射性物質(zhì)發(fā)生泄漏巷折。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一崖咨、第九天 我趴在偏房一處隱蔽的房頂上張望锻拘。 院中可真熱鬧,春花似錦击蹲、人聲如沸署拟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽推穷。三九已至,卻和暖如春类咧,著一層夾襖步出監(jiān)牢的瞬間馒铃,已是汗流浹背蟹腾。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留区宇,地道東北人娃殖。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像萧锉,于是被迫代替她去往敵國和親珊随。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)分析中總離不開統(tǒng)計學中的相關概念和方法柿隙,因而統(tǒng)計思維也是數(shù)據(jù)分析思維之一。在數(shù)據(jù)分析中鲫凶,統(tǒng)計思維就是用統(tǒng)計的相...
    keeya閱讀 9,398評論 1 16
  • 十一螟炫、估計 原文:Estimation 譯者:飛龍 協(xié)議:CC BY-NC-SA 4.0 自豪地采用谷歌翻譯 在前...
    布客飛龍閱讀 1,008評論 0 2
  • 我那時候記得是個特別害羞的人 真想說說小時候的我 特別特別害羞 然后又善于掩飾自己的害羞 很會打交道 記得那時...
    墨先山雨閱讀 175評論 0 0
  • 版本【1.0】版本 鏈接《http://t.cn/RRe3dVi》鏈接 介紹〔增加氫氣美化和更多車輛美化波附,導入更輕...
    YiMo歐巴閱讀 271評論 0 0
  • 有一種淘金時代的感覺,各種大大小小的金礦昼钻,越來越多涌進的人潮掸屡。 今天的兩件事情,一個是陳偉星與笑來的撕逼然评,一個是火...
    廢柴叔左道閱讀 369評論 0 0