機器學習實戰(zhàn)-數(shù)據(jù)探索

機器學習更多內容可以關注github項目:machine learning

數(shù)據(jù)的輸入質量決定了輸出的最后結果,數(shù)據(jù)的探索、預處理、特征選擇、降維等特征工程占了項目的70%的時間眶熬。那么如果我們確定了商業(yè)目的,該如何一步一步漸進式進行特征工程呢块请?各位看官不急娜氏,請小的慢慢給你道來。

我前面有幾遍文章也是介紹特征工程墩新,但大致介紹特征工程包含哪些內容贸弥,知識比較離散化,如果在一個實際項目中海渊,什么時候使用什么方法绵疲,沒有貫穿起來。在看此篇文章時臣疑,大家可以對照看盔憨。

在建立模型前,我們大致需要順序經(jīng)過以下幾步:

1讯沈、變量識別
2郁岩、單變量分析
3、雙變量分析
4缺狠、缺失值處理
5问慎、異常值處理
6、變量變化
7挤茄、變量創(chuàng)建

4-7在模型優(yōu)化中會重復進行如叼。

變量識別

首先,識別Predictor(即feature驮樊、輸入)Target(輸出)變量薇正。 接下來,確定變量的數(shù)據(jù)類型類別囚衔。

舉一個例子,讓我們更清楚地了解這一步雕沿。 假設我們想預測學生是否會玩板球(參考下面的數(shù)據(jù)集)练湿,需要識別預測變量、目標變量审轮,變量的數(shù)據(jù)類型和變量類別肥哎。



那么


Data_exploration_2.png

單變量分析(Univariate Analysis)

在這個階段辽俗,我們逐個探索變量。 執(zhí)行單變量分析的方法取決于變量類型是分類類型還是連續(xù)類型篡诽。

連續(xù)變量(Continuous Variables)

在連續(xù)變量的情況下崖飘,我們需要了解變量的中心趨勢分散,使用各種統(tǒng)計度量可視化方法進行測量杈女,如下所示

Data_exploration_31.png

分類變量(Categorical Variables)

對于分類變量朱浴,我們可使用頻率表來了解每個類別的分布,也可以讀取每個類別下的值的百分比达椰,也可以使用每個類別的Count和Count%來衡量翰蠢。Bar chart可以用作可視化。

雙變量分析

雙變量分析的主要目的是發(fā)現(xiàn)兩個變量之間的關系啰劲×翰祝可以對分類和連續(xù)變量的任何組合執(zhí)行雙變量分析。如:Continuous & Continuous蝇裤,Categorical & Categorical廷支,Categorical & Continuous and Continuous & Continuous。

Continuous & Continuous

在兩個連續(xù)變量之間進行雙變量分析時栓辜,散點圖( scatter plot)是找出兩個變量之間的關系的一個很好的方式酥泞。 散點圖表示變量之間的關系可以是線性或非線性。

correlation-examples
  • -1: perfect negative linear correlation
  • +1:perfect positive linear correlation and
  • 0: No correlation

scatter plot只是直觀來看啃憎,但是相關性如何計算呢芝囤?一般通過Pearson Correlation 來計算,缺點是:只可以確定線性相關性辛萍。非線性關系悯姊,可以采用互信息法,互信息系數(shù)能夠很好地度量各種相關性贩毕,但是計算相對復雜一些悯许。Pearson Correlation 計算方法如下:

correlation-calc1

Step 1: 計算x、y的均值
Step 2: x的每個值減去x的均值得到a, y值做類似操作得到b
Step 3: 計算: a × b, a的平方和b的平方
Step 4: 求a × b, a平方和b平方的和
Step 5: 如5的公式

Categorical & Categorical

雙向表:我們可以通過創(chuàng)建一個計數(shù)和計數(shù)%的雙向表來開始分析關系辉阶,行表示一個變量的類別先壕,列表示另一個變量的類別,如圖谆甜。

Data_exploration

Stacked Column Chart:更直觀垃僚,如上圖。
卡方檢驗:計算方法可以參考前面文章
確定自變量和因變量的相關性

p值為0:表示兩個變量是相關的
p值為1:表示兩個變量是獨立的

Categorical & Continuous

在探索分類和連續(xù)變量之間的關系時规辱,我們可以為每個級別的分類變量繪制box plot谆棺,但不顯示統(tǒng)計學意義。 為了看統(tǒng)計學意義罕袋,我們可以進行Z檢驗改淑,T檢驗方差分析碍岔。
T檢驗與Z檢驗非常相似,但用于當兩個類別的觀察次數(shù)小于30時朵夏,方差分析用于評估兩個以上組的平均值是否在統(tǒng)計學上不同蔼啦。

下篇再接著介紹。

參考

central measures
range
https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末仰猖,一起剝皮案震驚了整個濱河市捏肢,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌亮元,老刑警劉巖猛计,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異爆捞,居然都是意外死亡奉瘤,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門煮甥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盗温,“玉大人,你說我怎么就攤上這事成肘÷艟郑” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵双霍,是天一觀的道長砚偶。 經(jīng)常有香客問我,道長洒闸,這世上最難降的妖魔是什么染坯? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮丘逸,結果婚禮上单鹿,老公的妹妹穿的比我還像新娘。我一直安慰自己深纲,他們只是感情好仲锄,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著湃鹊,像睡著了一般儒喊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上涛舍,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天澄惊,我揣著相機與錄音,去河邊找鬼富雅。 笑死掸驱,一個胖子當著我的面吹牛,可吹牛的內容都是我干的没佑。 我是一名探鬼主播毕贼,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蛤奢!你這毒婦竟也來了鬼癣?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤啤贩,失蹤者是張志新(化名)和其女友劉穎待秃,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體痹屹,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡章郁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了志衍。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暖庄。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖楼肪,靈堂內的尸體忽然破棺而出培廓,到底是詐尸還是另有隱情,我是刑警寧澤春叫,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布肩钠,位于F島的核電站,受9級特大地震影響暂殖,放射性物質發(fā)生泄漏价匠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一央星、第九天 我趴在偏房一處隱蔽的房頂上張望霞怀。 院中可真熱鬧,春花似錦莉给、人聲如沸毙石。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽徐矩。三九已至,卻和暖如春叁幢,著一層夾襖步出監(jiān)牢的瞬間滤灯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鳞骤,地道東北人窒百。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像豫尽,于是被迫代替她去往敵國和親篙梢。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內容