從零開(kāi)始機(jī)器學(xué)習(xí)-11 特征工程(下)

本文由 沈慶陽(yáng) 所有,轉(zhuǎn)載請(qǐng)與作者取得聯(lián)系!
在特征工程(上)窗轩,我們提到了壞數(shù)據(jù)對(duì)整個(gè)數(shù)據(jù)集的危害苹丸,那么我們有什么方法去挑選出并剔除壞數(shù)據(jù)呢?

縮放

縮放包归,顧名思義锨推,將特征值從自然范圍(比如0到1000)轉(zhuǎn)換到標(biāo)準(zhǔn)范圍(0到1或-1到1)。
對(duì)于多特特征公壤,縮放可以幫助提升梯度下降法的收斂速度换可;避免因訓(xùn)練時(shí)超出數(shù)值范圍(如大于float型最大值的范圍)而造成的NaN而產(chǎn)生的后果(即NaN陷阱);幫助模型為特征確定合適的權(quán)重厦幅。
除了將[min,max]以線性方式縮放到諸如[0,1]范圍之內(nèi)沾鳄,還有另一種縮放策略——計(jì)算每個(gè)數(shù)值的Z得分。
Z得分的計(jì)算公式如下:

縮放值=(原始數(shù)值-平均值)/標(biāo)準(zhǔn)偏差
scaled=(value-mean)/stddev

極端離群值

通過(guò)將totalRooms/population得到roomsPerPerson特征确憨。

california_housing_dataframe["rooms_per_person"] = (
    california_housing_dataframe["total_rooms"] / california_housing_dataframe["population"])

使用pyplot繪制其概率分布如下:


人均房間數(shù)分布曲線

我們可以看到译荞,人均房間數(shù)大部分分布在1到2之間。但是在圖的右側(cè)我們不難觀察到甚至于人均55個(gè)房間休弃,可以說(shuō)該分布具有很長(zhǎng)的尾巴吞歼。由于右側(cè)的這些分布偏離我們的主要分布很遠(yuǎn),因此需要降低這些極端離群值對(duì)數(shù)據(jù)集的影響塔猾。
其中一個(gè)處理極端離群值的方法就是取對(duì)數(shù)浆熔。

roomsPerPerson=log((totalRooms / population) + 1)
對(duì)數(shù)據(jù)取對(duì)數(shù)處理之后的概率分布

我們可以看到在對(duì)數(shù)據(jù)進(jìn)行取對(duì)數(shù)處理過(guò)后,最遠(yuǎn)的離群值到了4左右,相比最遠(yuǎn)到55少了不少医增,但是仍然有很多離群值慎皱。即使用對(duì)數(shù)縮放之后仍存在部分離群值。如果這時(shí)候我們將roomsPerPerson的最大值限制為4呢叶骨?也就是所有大于4的值都會(huì)變?yōu)?茫多。

roomsPerPerson = min(totalRooms / population, 4)
限制特征值最大值

可以看到,由于將特征值最大值限制為了4忽刽,因此所有大于4的值都會(huì)變成4天揖,因此在4的地方會(huì)出現(xiàn)激增。盡管這個(gè)地方出現(xiàn)了一個(gè)峰值跪帝,但也比原始數(shù)據(jù)有用的多今膊。

分箱

假設(shè)我們存在一個(gè)特征值分布在從32到44范圍之內(nèi)的特征。


緯度和房?jī)r(jià)的分布直方圖

可以看出伞剑,跟隨緯度的變化斑唬,房?jī)r(jià)的變化不再是線性關(guān)系。為了將緯度特征變成一個(gè)實(shí)用的預(yù)測(cè)指標(biāo)黎泣,則需要對(duì)緯度進(jìn)行分箱恕刘。
即對(duì)32到44之間的內(nèi)容等分為11份。如第一個(gè)箱(Bin)是從32到34抒倚,第二個(gè)箱是從34到36...
我們使用一個(gè)具有11個(gè)元素的矢量來(lái)表示褐着,即33緯度坐落在第一個(gè)箱內(nèi),則該緯度表示為:

[1,0,0,0,0,0,0,0,0,0]

清查

有時(shí)托呕,在進(jìn)行數(shù)據(jù)集準(zhǔn)備的時(shí)候含蓉,我們獲取的數(shù)據(jù)往往存在不可靠的情況。其具體表現(xiàn)有如下幾種:
不良標(biāo)簽:將鋼筆誤標(biāo)記為茶杯
重復(fù)樣本:一個(gè)樣本存在兩次(同時(shí)存在訓(xùn)練集和驗(yàn)證集/測(cè)試集中项郊,相當(dāng)致命)
不良特征值:特征值錯(cuò)誤谴餐,如將房?jī)r(jià)錯(cuò)誤地多大了一個(gè)0
遺漏值:如某個(gè)房屋的價(jià)格忘記輸入了,導(dǎo)致該樣本的特征值為NaN
在同上面的一些對(duì)數(shù)據(jù)的處理過(guò)程中呆抑,直方圖是可視化數(shù)據(jù)集中的數(shù)據(jù)的一種很直觀的方法岂嗓。同時(shí),了解數(shù)據(jù)的最大值最小值鹊碍、均值和中間值和標(biāo)準(zhǔn)偏差(方差)都是很有作用的厌殉。
最后請(qǐng)記住,良好的機(jī)器學(xué)習(xí)依賴(lài)于良好的數(shù)據(jù)侈咕。

覺(jué)得寫(xiě)的不錯(cuò)的朋友可以點(diǎn)一個(gè) 喜歡? ~
謝謝你的支持公罕!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市耀销,隨后出現(xiàn)的幾起案子楼眷,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,948評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件罐柳,死亡現(xiàn)場(chǎng)離奇詭異掌腰,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)张吉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)齿梁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人肮蛹,你說(shuō)我怎么就攤上這事勺择。” “怎么了伦忠?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,490評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵省核,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我昆码,道長(zhǎng)气忠,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,521評(píng)論 1 284
  • 正文 為了忘掉前任未桥,我火速辦了婚禮笔刹,結(jié)果婚禮上芥备,老公的妹妹穿的比我還像新娘冬耿。我一直安慰自己,他們只是感情好萌壳,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布亦镶。 她就那樣靜靜地躺著,像睡著了一般袱瓮。 火紅的嫁衣襯著肌膚如雪缤骨。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,842評(píng)論 1 290
  • 那天尺借,我揣著相機(jī)與錄音绊起,去河邊找鬼。 笑死燎斩,一個(gè)胖子當(dāng)著我的面吹牛虱歪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播栅表,決...
    沈念sama閱讀 38,997評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼笋鄙,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了怪瓶?” 一聲冷哼從身側(cè)響起萧落,我...
    開(kāi)封第一講書(shū)人閱讀 37,741評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后找岖,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體陨倡,經(jīng)...
    沈念sama閱讀 44,203評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評(píng)論 2 327
  • 正文 我和宋清朗相戀三年宣增,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了玫膀。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,673評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡爹脾,死狀恐怖帖旨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情灵妨,我是刑警寧澤解阅,帶...
    沈念sama閱讀 34,339評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站泌霍,受9級(jí)特大地震影響货抄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜朱转,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評(píng)論 3 313
  • 文/蒙蒙 一蟹地、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧藤为,春花似錦怪与、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,770評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至存淫,卻和暖如春耘斩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背桅咆。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,000評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工括授, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人岩饼。 一個(gè)月前我還...
    沈念sama閱讀 46,394評(píng)論 2 360
  • 正文 我出身青樓荚虚,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親忌愚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子曲管,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容