首先:
機器學習過程分為以下幾部分:
?1. 業(yè)務背景
?2.選擇數據(Select Data): 整合數據踪蹬,將數據規(guī)范化成一個數據集萍歉,收集起來.
?3.數據預處理(Preprocess Data): 數據格式化,數據清理燕耿,采樣等.
?4.數據轉換(Transform Data): 這個階段做特征工程.
?5.數據建模(Model Data): 建立模型低千,評估模型并逐步優(yōu)化.
其次:
- 特征工程是一個迭代過程,我們需要不斷的設計特征冗澈、選擇特征钦勘、建立模型、評估模型亚亲,然后才能得到最終的模型彻采。
2.其定義——就是一個把原始數據轉變成特征的過程蒙幻,這些特征可以很好的描述這些數據损合,并且利用它們建立的模型在未知數據上的表現(xiàn)性能可以達到最優(yōu)(或者接近最佳性能)。
3.目的——獲取更好的訓練數據麸拄。
4.重要性——
(1)特征越好惜索,靈活性越強
好特征允許你選擇不復雜的模型终惑,同時運行速度也更快,也更容易理解和維護门扇。
(2)特征越好雹有,構建的模型越簡單
有好的特征,不需要花太多的時間尋找最優(yōu)參數臼寄,大大降低模型的復雜度霸奕,模型趨于簡單。
(3)特征越好吉拳,模型的性能越出色
最終目的就是提升模型的性能质帅。
最后:
分為三個子問題:
A.特征選擇Feature Selection——從特征集合中挑選一組最具統(tǒng)計意義的特征子集,從而達到降維的效果留攒。
特征選擇可能會降低模型的預測能力煤惩,因為被剔除的特征中可能包含了有效的信息,拋棄這部分信息一定程度上會降低模型的性能炼邀。但這也是計算復雜度和模型性能之間的取舍:
如果保留盡可能多的特征魄揉,模型的性能會提升,但同時模型就變復雜拭宁,計算復雜度也同樣提升洛退;
如果剔除盡可能多的特征瓣俯,模型的性能會有所下降,但模型就變簡單兵怯,也就降低計算復雜度彩匕。
常見的特征選擇分為三類方法:
?1.過濾式(filter):先對數據集進行特征選擇,其過程與后續(xù)學習器無關媒区,即設計一些統(tǒng)計量來過濾特征驼仪,并不考慮后續(xù)學習器問題
1)方差選擇法,相關系數法袜漩,卡方檢驗绪爸,互信息法
?2.包裹式(wrapper):直接把最終將要使用的學習器的性能作為特征子集的評價原則。
2)遞歸特征消除法
?3.嵌入式(embedding):將特征選擇與學習器訓練過程融為一體噪服,兩者在同一個優(yōu)化過程中完成的
3.1)利用正則化毡泻,如L_1, L_2 范數,主要應用于如線性回歸粘优、邏輯回歸以及支持向量機(SVM)等算法仇味;
3.2)使用決策樹思想,包括決策樹雹顺、隨機森林丹墨、Gradient Boosting 等
B.特征提取Feature Extraction
?對象是原始數據(raw data)
?目的是自動地構建新的特征,將原始特征轉換為一組具有明顯物理意義(Gabor嬉愧、幾何特征[角點贩挣、不變量]、紋理[LBP HOG])或者統(tǒng)計意義特征没酣。
?通過變換特征取值來減少原始數據中某個特征的取值個數
?常用的方法有:
1)PCA (Principal component analysis王财,主成分分析):找到數據中的主成分,并利用這些主成分來表征原始數據裕便,從而達到降維的目的绒净。通過坐標軸轉換,尋找數據分布的最優(yōu)子空間偿衰,只是將數據映射到方差比較大的方向上而已
2)LDA (Linear Discriminant Analysis挂疆,線性判別分析):一種有監(jiān)督學習算法,相比較 PCA下翎,它考慮到數據的類別信息
C.特征提取Feature Construction
?從原始數據中人工構建新特征
?需要花大量的時間去研究真實的數據樣本缤言,思考問題的潛在形式和數據結構,同時能夠更好地應用到預測模型中视事。