淺談—機器學習中特征工程

首先:

機器學習過程分為以下幾部分:
?1. 業(yè)務背景

?2.選擇數據(Select Data): 整合數據踪蹬,將數據規(guī)范化成一個數據集萍歉,收集起來.

?3.數據預處理(Preprocess Data): 數據格式化,數據清理燕耿,采樣等.

?4.數據轉換(Transform Data): 這個階段做特征工程.

?5.數據建模(Model Data): 建立模型低千,評估模型并逐步優(yōu)化.

其次:

  1. 特征工程是一個迭代過程,我們需要不斷的設計特征冗澈、選擇特征钦勘、建立模型、評估模型亚亲,然后才能得到最終的模型彻采。
    2.其定義——就是一個把原始數據轉變成特征的過程蒙幻,這些特征可以很好的描述這些數據损合,并且利用它們建立的模型在未知數據上的表現(xiàn)性能可以達到最優(yōu)(或者接近最佳性能)。
    3.目的——獲取更好的訓練數據麸拄。
    4.重要性——
    (1)特征越好惜索,靈活性越強
    好特征允許你選擇不復雜的模型终惑,同時運行速度也更快,也更容易理解和維護门扇。
    (2)特征越好雹有,構建的模型越簡單
    有好的特征,不需要花太多的時間尋找最優(yōu)參數臼寄,大大降低模型的復雜度霸奕,模型趨于簡單。
    (3)特征越好吉拳,模型的性能越出色
    最終目的就是提升模型的性能质帅。

最后:

分為三個子問題:
A.特征選擇Feature Selection——從特征集合中挑選一組最具統(tǒng)計意義的特征子集,從而達到降維的效果留攒。

特征選擇可能會降低模型的預測能力煤惩,因為被剔除的特征中可能包含了有效的信息,拋棄這部分信息一定程度上會降低模型的性能炼邀。但這也是計算復雜度和模型性能之間的取舍:

如果保留盡可能多的特征魄揉,模型的性能會提升,但同時模型就變復雜拭宁,計算復雜度也同樣提升洛退;
如果剔除盡可能多的特征瓣俯,模型的性能會有所下降,但模型就變簡單兵怯,也就降低計算復雜度彩匕。

常見的特征選擇分為三類方法:
?1.過濾式(filter):先對數據集進行特征選擇,其過程與后續(xù)學習器無關媒区,即設計一些統(tǒng)計量來過濾特征驼仪,并不考慮后續(xù)學習器問題
1)方差選擇法,相關系數法袜漩,卡方檢驗绪爸,互信息法
?2.包裹式(wrapper):直接把最終將要使用的學習器的性能作為特征子集的評價原則。
2)遞歸特征消除法
?3.嵌入式(embedding):將特征選擇與學習器訓練過程融為一體噪服,兩者在同一個優(yōu)化過程中完成的
3.1)利用正則化毡泻,如L_1, L_2 范數,主要應用于如線性回歸粘优、邏輯回歸以及支持向量機(SVM)等算法仇味;
3.2)使用決策樹思想,包括決策樹雹顺、隨機森林丹墨、Gradient Boosting 等

B.特征提取Feature Extraction
?對象是原始數據(raw data)
?目的是自動地構建新的特征,將原始特征轉換為一組具有明顯物理意義(Gabor嬉愧、幾何特征[角點贩挣、不變量]、紋理[LBP HOG])或者統(tǒng)計意義特征没酣。
?通過變換特征取值來減少原始數據中某個特征的取值個數

?常用的方法有:
1)PCA (Principal component analysis王财,主成分分析):找到數據中的主成分,并利用這些主成分來表征原始數據裕便,從而達到降維的目的绒净。通過坐標軸轉換,尋找數據分布的最優(yōu)子空間偿衰,只是將數據映射到方差比較大的方向上而已
2)LDA (Linear Discriminant Analysis挂疆,線性判別分析):一種有監(jiān)督學習算法,相比較 PCA下翎,它考慮到數據的類別信息

C.特征提取Feature Construction
?從原始數據中人工構建新特征
?需要花大量的時間去研究真實的數據樣本缤言,思考問題的潛在形式和數據結構,同時能夠更好地應用到預測模型中视事。

只是初步分析胆萧,后續(xù)還會更新。郑口。鸳碧。盾鳞。
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末犬性,一起剝皮案震驚了整個濱河市瞻离,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌乒裆,老刑警劉巖套利,帶你破解...
    沈念sama閱讀 211,348評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異鹤耍,居然都是意外死亡肉迫,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評論 2 385
  • 文/潘曉璐 我一進店門稿黄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來喊衫,“玉大人,你說我怎么就攤上這事杆怕∽骞海” “怎么了?”我有些...
    開封第一講書人閱讀 156,936評論 0 347
  • 文/不壞的土叔 我叫張陵陵珍,是天一觀的道長寝杖。 經常有香客問我,道長互纯,這世上最難降的妖魔是什么瑟幕? 我笑而不...
    開封第一講書人閱讀 56,427評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮留潦,結果婚禮上只盹,老公的妹妹穿的比我還像新娘。我一直安慰自己兔院,他們只是感情好殖卑,可當我...
    茶點故事閱讀 65,467評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著秆乳,像睡著了一般懦鼠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上屹堰,一...
    開封第一講書人閱讀 49,785評論 1 290
  • 那天肛冶,我揣著相機與錄音,去河邊找鬼扯键。 笑死睦袖,一個胖子當著我的面吹牛,可吹牛的內容都是我干的荣刑。 我是一名探鬼主播馅笙,決...
    沈念sama閱讀 38,931評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼伦乔,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了董习?” 一聲冷哼從身側響起烈和,我...
    開封第一講書人閱讀 37,696評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎皿淋,沒想到半個月后招刹,有當地人在樹林里發(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 44,141評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡窝趣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,483評論 2 327
  • 正文 我和宋清朗相戀三年疯暑,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哑舒。...
    茶點故事閱讀 38,625評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡妇拯,死狀恐怖,靈堂內的尸體忽然破棺而出洗鸵,到底是詐尸還是另有隱情越锈,我是刑警寧澤,帶...
    沈念sama閱讀 34,291評論 4 329
  • 正文 年R本政府宣布预麸,位于F島的核電站瞪浸,受9級特大地震影響,放射性物質發(fā)生泄漏吏祸。R本人自食惡果不足惜对蒲,卻給世界環(huán)境...
    茶點故事閱讀 39,892評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望贡翘。 院中可真熱鬧蹈矮,春花似錦、人聲如沸鸣驱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽踊东。三九已至北滥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間闸翅,已是汗流浹背再芋。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留坚冀,地道東北人济赎。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親司训。 傳聞我的和親對象是個殘疾皇子构捡,可洞房花燭夜當晚...
    茶點故事閱讀 43,492評論 2 348