機器學習更多內容可以關注github項目:machine learning
數(shù)據(jù)的輸入質量決定了輸出的最后結果,數(shù)據(jù)的探索、預處理、特征選擇、降維等特征工程占了項目的70%的時間眶熬。那么如果我們確定了商業(yè)目的,該如何一步一步漸進式進行特征工程呢块请?各位看官不急娜氏,請小的慢慢給你道來。
我前面有幾遍文章也是介紹特征工程墩新,但大致介紹特征工程包含哪些內容贸弥,知識比較離散化,如果在一個實際項目中海渊,什么時候使用什么方法绵疲,沒有貫穿起來。在看此篇文章時臣疑,大家可以對照看盔憨。
在建立模型前,我們大致需要順序經(jīng)過以下幾步:
1讯沈、變量識別
2郁岩、單變量分析
3、雙變量分析
4缺狠、缺失值處理
5问慎、異常值處理
6、變量變化
7挤茄、變量創(chuàng)建
4-7在模型優(yōu)化中會重復進行如叼。
變量識別
首先,識別Predictor(即feature驮樊、輸入)和Target(輸出)變量薇正。 接下來,確定變量的數(shù)據(jù)類型和類別囚衔。
舉一個例子,讓我們更清楚地了解這一步雕沿。 假設我們想預測學生是否會玩板球(參考下面的數(shù)據(jù)集)练湿,需要識別預測變量、目標變量审轮,變量的數(shù)據(jù)類型和變量類別肥哎。
那么
單變量分析(Univariate Analysis)
在這個階段辽俗,我們逐個探索變量。 執(zhí)行單變量分析的方法取決于變量類型是分類類型還是連續(xù)類型篡诽。
連續(xù)變量(Continuous Variables)
在連續(xù)變量的情況下崖飘,我們需要了解變量的中心趨勢和分散,使用各種統(tǒng)計度量可視化方法進行測量杈女,如下所示
分類變量(Categorical Variables)
對于分類變量朱浴,我們可使用頻率表來了解每個類別的分布,也可以讀取每個類別下的值的百分比达椰,也可以使用每個類別的Count和Count%來衡量翰蠢。Bar chart
可以用作可視化。
雙變量分析
雙變量分析的主要目的是發(fā)現(xiàn)兩個變量之間的關系啰劲×翰祝可以對分類和連續(xù)變量的任何組合執(zhí)行雙變量分析。如:Continuous & Continuous蝇裤,Categorical & Categorical廷支,Categorical & Continuous and Continuous & Continuous。
Continuous & Continuous
在兩個連續(xù)變量之間進行雙變量分析時栓辜,散點圖( scatter plot)是找出兩個變量之間的關系的一個很好的方式酥泞。 散點圖表示變量之間的關系可以是線性或非線性。
- -1: perfect negative linear correlation
- +1:perfect positive linear correlation and
- 0: No correlation
scatter plot只是直觀來看啃憎,但是相關性如何計算呢芝囤?一般通過Pearson Correlation 來計算,缺點是:只可以確定線性相關性辛萍。非線性關系悯姊,可以采用互信息法,互信息系數(shù)能夠很好地度量各種相關性贩毕,但是計算相對復雜一些悯许。Pearson Correlation 計算方法如下:
Step 1: 計算x、y的均值
Step 2: x的每個值減去x的均值得到a, y值做類似操作得到b
Step 3: 計算: a × b, a的平方和b的平方
Step 4: 求a × b, a平方和b平方的和
Step 5: 如5的公式
Categorical & Categorical
雙向表:我們可以通過創(chuàng)建一個計數(shù)和計數(shù)%的雙向表來開始分析關系辉阶,行表示一個變量的類別先壕,列表示另一個變量的類別,如圖谆甜。
Stacked Column Chart:更直觀垃僚,如上圖。
卡方檢驗:計算方法可以參考前面文章
確定自變量和因變量的相關性
p值為0:表示兩個變量是相關的
p值為1:表示兩個變量是獨立的
Categorical & Continuous
在探索分類和連續(xù)變量之間的關系時规辱,我們可以為每個級別的分類變量繪制box plot谆棺,但不顯示統(tǒng)計學意義。 為了看統(tǒng)計學意義罕袋,我們可以進行Z檢驗改淑,T檢驗或方差分析碍岔。
T檢驗與Z檢驗非常相似,但用于當兩個類別的觀察次數(shù)小于30時朵夏,方差分析用于評估兩個以上組的平均值是否在統(tǒng)計學上不同蔼啦。
下篇再接著介紹。
參考
central measures
range
https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/