金融分析finaTech 離散化-等頻等距

離散化-等頻等距
轉(zhuǎn)載 2016年03月02日 19:58:09 2540
離散化指把連續(xù)型數(shù)據(jù)切分為若干“段”,也稱bin,是數(shù)據(jù)分析中常用的手段哼审。切分的原則有等距,等頻显设,優(yōu)化框弛,或根據(jù)數(shù)據(jù)特點(diǎn)而定。在營(yíng)銷數(shù)據(jù)挖掘中捕捂,離散化得到普遍采用瑟枫。究其原因斗搞,有這樣幾點(diǎn):
①算法需要。例如決策樹慷妙,NaiveBayes等算法本身不能直接使用連續(xù)型變量僻焚,連續(xù)型數(shù)據(jù)只有經(jīng)離散處理后才能進(jìn)入算法引擎。這一點(diǎn)在使用具體軟件時(shí)可能不明顯膝擂。因?yàn)榇蠖鄶?shù)數(shù)據(jù)挖掘軟件內(nèi)已經(jīng)內(nèi)建了離散化處理程序虑啤,所以從使用界面看,軟件可以接納任何形式的數(shù)據(jù)架馋。但實(shí)際上狞山,在運(yùn)算決策樹或NaiveBayes模型前,軟件都要在后臺(tái)對(duì)數(shù)據(jù)先作預(yù)處理叉寂。
②離散化可以有效地克服數(shù)據(jù)中隱藏的缺陷:使模型結(jié)果更加穩(wěn)定萍启。例如,數(shù)據(jù)中的極端值是影響模型效果的一個(gè)重要因素屏鳍。極端值導(dǎo)致模型參數(shù)過(guò)高或過(guò)低勘纯,或?qū)е履P捅惶摷佻F(xiàn)象“迷惑”,把原來(lái)不存在的關(guān)系作為重要模式來(lái)學(xué)習(xí)钓瞭。而離散化驳遵,尤其是等距離散,可以有效地減弱極端值和異常值的影響降淮,
③有利于對(duì)非線性關(guān)系進(jìn)行診斷和描述:對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散處理后超埋,自變量和目標(biāo)變量之間的關(guān)系變得清晰化。如果兩者之間是非線性關(guān)系佳鳖,可以重新定義離散后變量每段的取值霍殴,如采取0,1的形式系吩, 由一個(gè)變量派生為多個(gè)啞變量来庭,分別確定每段和目標(biāo)變量間的聯(lián)系。這樣做穿挨,雖然減少了模型的自由度月弛,但可以大大提高模型的靈活度。
即使在連續(xù)型自變量和目標(biāo)變量之間的關(guān)系比較明確科盛,例如可以用直線描述的情況下帽衙,對(duì)自變量進(jìn)行離散處理也有若干優(yōu)點(diǎn)。一是便于模型的解釋和使用贞绵,二是可以增加模型的區(qū)別能力厉萝。
等距:將連續(xù)型變量的取值范圍均勻劃成n等份,每份的間距相等。例如谴垫,客戶訂閱刊物的時(shí)間是一個(gè)連續(xù)型變量章母,可以從幾天到幾年。采取等距切分可以把1年以下的客戶劃分成一組翩剪,1-2年的客戶為一組乳怎,2-3年為一組..,以此類分前弯,組距都是一年蚪缀。
等頻:把觀察點(diǎn)均勻分為n等份,每份內(nèi)包含的觀察點(diǎn)數(shù)相同博杖。還取上面的例子椿胯,設(shè)該雜志訂戶共有5萬(wàn)人,等頻分段需要先把訂戶按訂閱時(shí)間按順序排列剃根,排列好后可以按5000人一組哩盲,把全部訂戶均勻分為十段。
等距和等頻在大多數(shù)情況下導(dǎo)致不同的結(jié)果狈醉。等距可以保持?jǐn)?shù)據(jù)原有的分布廉油,段落越多對(duì)數(shù)據(jù)原貌保持得越好。等頻處理則把數(shù)據(jù)變換成均勻分布苗傅,但其各段內(nèi)觀察值相同這一點(diǎn)是等距分割作不到的抒线。
優(yōu)化離散:需要把自變量和目標(biāo)變量聯(lián)系起來(lái)考察。切分點(diǎn)是導(dǎo)致目標(biāo)變量出現(xiàn)明顯變化的折點(diǎn)渣慕。常用的檢驗(yàn)指標(biāo)有卡方嘶炭,信息增益,基尼指數(shù)逊桦,或WOE(要求目標(biāo)變量是兩元變量)
離散連續(xù)型數(shù)據(jù)還可以按照需要而定眨猎。比如,當(dāng)營(yíng)銷的重點(diǎn)是19-24歲的大學(xué)生消費(fèi)群體時(shí)强经,就可以把這部分人單獨(dú)劃出睡陪。
離散化處理不免要損失一部分信息。很顯然匿情,對(duì)連續(xù)型數(shù)據(jù)進(jìn)行分段后兰迫,同一個(gè)段內(nèi)的觀察點(diǎn)之間的差異便消失了。同時(shí)炬称,進(jìn)行了離散處理的變量有了新值汁果。比如現(xiàn)在可以簡(jiǎn)單地用1,2,3..這樣一組數(shù)字來(lái)標(biāo)志雜志訂戶所處的段落。這組數(shù)字和原來(lái)的客戶訂閱雜志的時(shí)間沒有直接的聯(lián)系玲躯,也不再具備連續(xù)型數(shù)據(jù)可以運(yùn)算的關(guān)系须鼎。例如鲸伴,使用原來(lái)的數(shù)據(jù),我們可以說(shuō)已有兩年歷史的客戶訂閱時(shí)間是只有一年歷史客戶的兩倍晋控,但經(jīng)過(guò)離散處理后,我們只知道第2組的客戶的平均訂閱時(shí)間高于第一組客戶姓赤,但無(wú)法知道兩組客戶之間的確切差距赡译。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市不铆,隨后出現(xiàn)的幾起案子蝌焚,更是在濱河造成了極大的恐慌,老刑警劉巖誓斥,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件只洒,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡劳坑,警方通過(guò)查閱死者的電腦和手機(jī)毕谴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)距芬,“玉大人涝开,你說(shuō)我怎么就攤上這事】蜃校” “怎么了舀武?”我有些...
    開封第一講書人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)离斩。 經(jīng)常有香客問(wèn)我银舱,道長(zhǎng),這世上最難降的妖魔是什么跛梗? 我笑而不...
    開封第一講書人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任寻馏,我火速辦了婚禮,結(jié)果婚禮上茄袖,老公的妹妹穿的比我還像新娘操软。我一直安慰自己,他們只是感情好宪祥,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開白布聂薪。 她就那樣靜靜地躺著,像睡著了一般蝗羊。 火紅的嫁衣襯著肌膚如雪藏澳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,775評(píng)論 1 307
  • 那天耀找,我揣著相機(jī)與錄音翔悠,去河邊找鬼业崖。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蓄愁,可吹牛的內(nèi)容都是我干的双炕。 我是一名探鬼主播,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼撮抓,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼妇斤!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起丹拯,我...
    開封第一講書人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤站超,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后乖酬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體死相,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年咬像,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了算撮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡施掏,死狀恐怖钮惠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情七芭,我是刑警寧澤素挽,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站狸驳,受9級(jí)特大地震影響预明,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜耙箍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一撰糠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧辩昆,春花似錦阅酪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至施无,卻和暖如春辉词,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背猾骡。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工瑞躺, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留敷搪,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓幢哨,卻偏偏與公主長(zhǎng)得像赡勘,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子嘱么,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356

推薦閱讀更多精彩內(nèi)容