【百面機(jī)器學(xué)習(xí)筆記】特征工程

數(shù)據(jù)類型

  1. 結(jié)構(gòu)化數(shù)據(jù) : 可以看作關(guān)系型數(shù)據(jù)庫(kù)的一張表,包含數(shù)值型和類別型兩種基本類型亮曹;
  2. 非結(jié)構(gòu)化數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)主要包括文本倍奢、圖像、音頻秦踪、視頻數(shù)據(jù),其包含的信息無(wú)法用一個(gè)簡(jiǎn)單的數(shù)值表示邦危,也沒(méi)有清晰的類別定義,并且每條數(shù)據(jù)的大小各不相同舍扰。

特征歸一化

為消除數(shù)據(jù)特征之間的量綱影響倦蚪,如身高和體重。
(1) 最大最小歸一化边苹,它對(duì)原始數(shù)據(jù)進(jìn)行線性變換陵且,使結(jié)果映射到[0, 1]的范圍,實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的等比縮放个束;
(2)零均值歸一化:它會(huì)將原始數(shù)據(jù)映射到均值為0慕购、標(biāo)準(zhǔn)差為1的分布上。

  1. 為什么要對(duì)數(shù)值型的特征做歸一化茬底?
    假設(shè)有兩種數(shù)值型的特征 x1[0,10] 沪悲,x2[0,3] 在學(xué)習(xí)速率相同的情況的下,x1的更新速度會(huì)大于x2阱表,需要較多的迭代才能找到最優(yōu)解殿如。如果將x1和x2歸一化到相同的數(shù)值區(qū)間后贡珊,優(yōu)化目標(biāo)的等值圖會(huì)變成圖1.1(b)中的圓形,x1和x2的更新速度變得更為一致涉馁,容易更快地通過(guò)梯度下降找到最優(yōu)解门岔。
  1. 歸一化適用情形
    在實(shí)際應(yīng)用中,通過(guò)梯度下降法求解的模型通常是需要?dú)w一化的烤送,包括線性回歸寒随、邏輯回歸、支持向量機(jī)帮坚、神經(jīng)網(wǎng)絡(luò)等模型妻往。但對(duì)于決策樹模型則并不適用。

類別特征

除了決策樹等少數(shù)模型能直接處理字符串形式的輸入叶沛,對(duì)于邏輯回歸蒲讯、支持向量機(jī)等模型來(lái)說(shuō),類別型特征必須經(jīng)過(guò)處理轉(zhuǎn)換成數(shù)值型特征才能正確工作灰署。

處理類別特征

  1. 序號(hào)編碼 : 特征大小有意義
  2. onehot:通常用于處理類別間不具有大小關(guān)系的特征判帮。
    對(duì)于類別取值較多的情況下使用獨(dú)熱編碼需要注意以下問(wèn)題。
    (1)使用稀疏向量來(lái)節(jié)省空間溉箕。在獨(dú)熱編碼下晦墙,特征向量只有某一維取值為1,其他位置取值均為0肴茄。因此可以利用向量的稀疏表示有效地節(jié)省空間晌畅,并且目前大部分的算法均接受稀疏向量形式的輸入。
    (2)配合特征選擇來(lái)降低維度寡痰。高維度特征會(huì)帶來(lái)幾方面的問(wèn)題抗楔。一是在K近鄰算法中,高維空間下兩點(diǎn)之間的距離很難得到有效的衡量拦坠;二是在邏輯回歸模型中连躏,參數(shù)的數(shù)量會(huì)隨著維度的增高而增加,容易引起過(guò)擬合問(wèn)題贞滨;三是通常只有部分維度是對(duì)分類入热、預(yù)測(cè)有幫助,因此可以考慮配合特征選擇來(lái)降低維度晓铆。
  3. 二進(jìn)制編碼:二進(jìn)制編碼本質(zhì)上是利用二進(jìn)制對(duì)ID進(jìn)行哈希映射勺良,最終得到0/1特征向量,且維數(shù)少于獨(dú)熱編碼骄噪,節(jié)省了存儲(chǔ)空間尚困。

高維特征組合的處理

若用戶的數(shù)量為m、物品的數(shù)量為n链蕊,那么需要學(xué)習(xí)的參數(shù)的規(guī)模為m×n尾组。在
互聯(lián)網(wǎng)環(huán)境下忙芒,用戶數(shù)量和物品數(shù)量都可以達(dá)到千萬(wàn)量級(jí),幾乎無(wú)法學(xué)習(xí)m×n規(guī)模的參數(shù)讳侨。在這種情況下呵萨,一種行之有效的方法是將用戶和物品分別用k維的低維向量表示(k<<m,k<<n),



其中跨跨, wij = wi' * wj',wi'和wj'分別表示xi和xj對(duì)應(yīng)的低維向量潮峦。在推薦問(wèn)題中,需要學(xué)習(xí)的參數(shù)的規(guī)模變?yōu)閙×k+n×k勇婴。熟悉推薦算法的同學(xué)很快可以看出來(lái)忱嘹,這其實(shí)等價(jià)于矩陣分解。所以耕渴,這里也提供了另一個(gè)理解推薦系統(tǒng)中矩陣分解的思路拘悦。

  1. 怎樣有效找到組合特征?
    基于決策樹:每一條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑都可以看成一種特征組合的方式橱脸。(可以使用梯度提升決策樹有效構(gòu)建)

文本表示模型

詞袋模型(Bag of Words)础米,TF-IDF(Term Frequency-Inverse Document Frequency),主題模型(Topic Model)添诉,詞嵌入模型(Word Embedding)屁桑。

1. 詞袋模型和N-gram模型
最基礎(chǔ)的文本表示模型是詞袋模型。顧名思義栏赴,就是將每篇文章看成一袋子詞蘑斧,并忽略每個(gè)詞出現(xiàn)的順序。具體地說(shuō)须眷,就是將整段文本以詞為單位切分開竖瘾,然后每篇文章可以表示成一個(gè)長(zhǎng)向量,向量中的每一維代表一個(gè)單詞花颗,而該維對(duì)應(yīng)的權(quán)重則反映了這個(gè)詞在原文章中的重要程度捕传。常用TF-IDF來(lái)計(jì)算權(quán)重,公式 TF-IDF(t,d)=TF(t,d)×IDF(t) 捎稚,
其中TF(t,d)為單詞t在文檔d中出現(xiàn)的頻率乐横,IDF(t)是逆文檔頻率求橄,用來(lái)衡量單詞t對(duì)表達(dá)語(yǔ)義所起的重要性今野,表示為


直觀的解釋是,如果一個(gè)單詞在非常多的文章里面都出現(xiàn)罐农,那么它可能是一個(gè)比較通用的詞匯条霜,對(duì)于區(qū)分某篇文章特殊語(yǔ)義的貢獻(xiàn)較小,因此對(duì)權(quán)重做一定懲罰涵亏。
通常宰睡,可以將連續(xù)出現(xiàn)的n個(gè)詞(n≤N)組成的詞組(N-gram)也作為一個(gè)單獨(dú)的特征放到向量表示中去蒲凶,構(gòu)成N-gram模型。另外拆内,同一個(gè)詞可能有多種詞性變化旋圆,卻具有相似的含義。在實(shí)際應(yīng)用中麸恍,一般會(huì)對(duì)單詞進(jìn)行詞干抽攘榍伞(Word Stemming)處理,即將不同詞性的單詞統(tǒng)一成為同一詞干的形式抹沪。
2. 主題模型
主題模型用于從文本庫(kù)中發(fā)現(xiàn)有代表性的主題(得到每個(gè)主題上面詞的分布特性)刻肄,并且能夠計(jì)算出每篇文章的主題分布。
3. 詞嵌入模型
詞嵌入是一類將詞向量化的模型的統(tǒng)稱融欧,核心思想是將每個(gè)詞都映射成低維間(通常K=50~300維)上的一個(gè)稠密向量(Dense Vector)敏弃。K維空間的每一維也可以看作一個(gè)隱含的主題,只不過(guò)不像主題模型中的主題那樣直觀噪馏。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末麦到,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子逝薪,更是在濱河造成了極大的恐慌隅要,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件董济,死亡現(xiàn)場(chǎng)離奇詭異步清,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)虏肾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門廓啊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人封豪,你說(shuō)我怎么就攤上這事谴轮。” “怎么了吹埠?”我有些...
    開封第一講書人閱讀 158,207評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵第步,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我缘琅,道長(zhǎng)粘都,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評(píng)論 1 284
  • 正文 為了忘掉前任刷袍,我火速辦了婚禮翩隧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘呻纹。我一直安慰自己堆生,他們只是感情好专缠,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著淑仆,像睡著了一般涝婉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蔗怠,一...
    開封第一講書人閱讀 50,050評(píng)論 1 291
  • 那天嘁圈,我揣著相機(jī)與錄音,去河邊找鬼蟀淮。 笑死最住,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的怠惶。 我是一名探鬼主播涨缚,決...
    沈念sama閱讀 39,136評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼策治!你這毒婦竟也來(lái)了脓魏?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,882評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤通惫,失蹤者是張志新(化名)和其女友劉穎茂翔,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體履腋,經(jīng)...
    沈念sama閱讀 44,330評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡珊燎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了遵湖。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片悔政。...
    茶點(diǎn)故事閱讀 38,789評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖延旧,靈堂內(nèi)的尸體忽然破棺而出谋国,到底是詐尸還是另有隱情,我是刑警寧澤迁沫,帶...
    沈念sama閱讀 34,477評(píng)論 4 333
  • 正文 年R本政府宣布芦瘾,位于F島的核電站,受9級(jí)特大地震影響集畅,放射性物質(zhì)發(fā)生泄漏近弟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評(píng)論 3 317
  • 文/蒙蒙 一牡整、第九天 我趴在偏房一處隱蔽的房頂上張望藐吮。 院中可真熱鬧溺拱,春花似錦逃贝、人聲如沸谣辞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)泥从。三九已至,卻和暖如春沪摄,著一層夾襖步出監(jiān)牢的瞬間躯嫉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工杨拐, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留祈餐,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,598評(píng)論 2 362
  • 正文 我出身青樓哄陶,卻偏偏與公主長(zhǎng)得像帆阳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子屋吨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容