數(shù)據(jù)分析的一般流程(利用機器學習)

一丑瞧、EDA

------explore? data? analysis,顧名思義柑土,數(shù)據(jù)探索性分析。主要目的是對數(shù)據(jù)有個大體的認識

????1绊汹、看下整體數(shù)據(jù)信息稽屏,有多少行,多少特征灸促,特征是數(shù)值還是分類

? ? 2、看目標值(假如有)的分布涵卵。如果是分類,看看各樣本比例是否平衡;如果是回歸荤崇,看看均值阅茶,方差

? ? 3、觀察特征坏晦,看含義是什么萝玷?有沒有冗余?分布情況如何昆婿,有沒有異常值球碉,缺失值

? ? 4、觀察少不了作圖仓蛆,matplotlib.pyplot睁冬,你懂的。當然還有一個高級庫看疙,seaborn.

?二豆拨、數(shù)據(jù)前處理(data? preprocessing)

????1、缺失值與異常值處理

? ? 一般來說能庆,我們采用替換法來處理施禾,常見的有平均值替換,中位數(shù)替換搁胆、拉格朗日插值法等弥搞。特殊情況下我們可以刪掉樣本(樣本量很大)邮绿,也可以不處理(部分算法對缺失異常值并不敏感)

? ? 2、樣本不平衡問題

? ? 這種主要通過采樣來解決拓巧。

? ? 上采樣----在樣本數(shù)目不夠時斯碌,對少數(shù)類進行過采樣。

? ? 下采樣----在樣本數(shù)目充足時肛度,對多數(shù)類進行欠采樣

? ? 3傻唾、類別屬性轉(zhuǎn)換成數(shù)值

? ? 數(shù)據(jù)分析中經(jīng)常遇到類別屬性,比如性別承耿,名字等冠骄。大多數(shù)算法無法直接處理這類數(shù)據(jù)(決策樹不服),需要把他們先處理成數(shù)值型變量

? ? one-hot code-----獨熱編碼加袋,用0/1多維向量表示凛辣。男? 01? ?女? 10

? ? label encoding---標簽編碼,用自然數(shù)進行編碼职烧,小學? 1? 中學 2? ?大學? 3

? ? 以上兩種編碼較常見扁誓,但是有其弊端,所以又有均值編碼等其他編碼方式

? ? 4蚀之、歸一化

? ? 常見的有0-1歸一化與均值方差標準化

? ? 什么時候需要歸一化蝗敢?一般的準則是,該模型關心變量的值足删。還有就是模型使用梯度下降法求解時也需要寿谴。否則很難收斂甚至不能收斂。

? ? 不需要歸一化的模型----決策樹失受、隨機森林讶泰、樸素貝葉斯

--------------------------------------------------------------------------------------------------------------------------

三、特征工程(feature engineer)

------數(shù)據(jù)和特征決定了機器學習的上限拂到,而模型和算法只是逼近這個上限罷了

????1痪署、特征構建(feature? construction)

? ? 比如我現(xiàn)在有身高、體重兩個特征兄旬,輸出為胖? 瘦? 正常惠桃。直接喂給模型,可能分類效果并不是特別好辖试,此時我構建了一個新的特征BMI指數(shù)辜王。這樣分類準確性便大大提高了

? ? 2、特征選擇(feature? selection)

? ? 思考一個問題罐孝,現(xiàn)在我有幾十個特征呐馆。所有的特征都和目標有關系嗎?特征之間是否存在相關性莲兢?更少的特征降低模型的復雜度汹来,一個簡單的模型更方便理解與解釋

? ? 2.1? filter? methods(過濾法)

? ? 方差選擇法:如果一個特征沒啥變動续膳,那他對結(jié)果基本也沒有什么解釋性。

? ? 最大信息系數(shù):對線性非線性相關都適用收班,比較健壯

? ? 2.2 wrapper? methods(包裹法)

? ? RFE:遞歸特征消除坟岔。使用一個有監(jiān)督的模型來訓練,逐步剔除權重較小的特征摔桦,.RFE給出的是特征重要性順序

? ? stability? selection:穩(wěn)定性選擇社付。他的主要思想是在不同的數(shù)據(jù)子集和特征子集上運行特征選擇算法,最終匯總特征選擇的結(jié)果邻耕。該方法性能比較好

? ? 2.3 Embedded methods(插入法)

? ? L1正則化:將額外的懲罰項加到模型上面鸥咖,最后很多特征系數(shù)為0.懲罰系數(shù)越大,特征系數(shù)越稀疏

? ? 基于樹模型:這里用隨機森林的平均精確度減少兄世。主要思想是打亂每個特征的順序啼辣,如果模型的準確度受到影響,說明該特征是重要的御滩。

? ? 3. feature? extraction(特征提取)

? ? PCA:數(shù)據(jù)從原來的坐標系轉(zhuǎn)換為新的坐標系鸥拧,第一個坐標軸選擇的是原始數(shù)據(jù)中方差最大的方向。第二個坐標軸與第一個正交且方差次之削解,以此類推富弦。最后幾個維度的方差很小,可以舍去钠绍,故有降維的效果

四舆声、機器學習算法

? ? 1花沉、分類算法

? ? 決策樹:目前一般用CART算法柳爽。他建立的是二叉樹,分類時使用基尼系數(shù)來度量劃分點

? ? 樸素貝葉斯:一種基于先驗概率以及特征獨立假設的算法碱屁。

? ? KNN算法:根據(jù)距離選取K個樣本磷脯,樣本中哪個類別多則劃分為哪一類

? ? SVM:除去集成算法,在簡單算法里面是很強大的分類算法娩脾。通常會用到高斯核函數(shù)赵誓。核函數(shù)是什么?他能把數(shù)據(jù)映射到高維空間以便線性分開,同時又能在低維進行內(nèi)積運算柿赊。

? ? 邏輯回歸:是一種線性分類器俩功,主要通過最大似然估計來學習。

? ? 2碰声、回歸算法

? ? Linear? Regression:使用擬合直線在因變量和一個或多個自變量之間建立關系(現(xiàn)實世界不會這么簡單诡蜓,所以就有下面的算法)

? ? 邏輯回歸:當因變量的類型屬于二元變量時,我們就應該使用邏輯回歸胰挑。

????Ridge? Regression:主要適用于過擬合嚴重以及自變量高度相關的情況

? ? Lasso? Regression:比嶺回歸更嚴厲蔓罚。如果一組變量高度相關椿肩,那么他會選出一組變量并將其他變量系數(shù)降低為0.

? ? 3、聚類算法

? ? K-Means:基于距離的聚類豺谈。目前除了仍必須指定K值外(其實可以調(diào)參解決)郑象,其他缺點都有改善的辦法

? ? DBSCAN:基于密度的算法。缺點是對密度變化比較大時效果不好茬末,但是OPTICS很好的解決了這一問題厂榛。

? ? spectral? clustering:譜聚類。他的主要思想是把所有的數(shù)據(jù)看作空間中的點团南。點之間的相似度看成是帶權重的邊噪沙。聚類時簇的邊權重值盡可能高,簇之間盡可能低

? ? 4吐根、集成算法

? ? Random? Forest:隨機森林正歼。從原始樣本集中抽取訓練集,有放回的抽樣拷橘。而且每次隨機的選取節(jié)點上的部分特征進行劃分局义。抽樣K次形成K個決策樹,每棵樹是平行的冗疮,獨立的萄唇。分類結(jié)果投票決定。優(yōu)點泛化能力強

? ? AdaBoost:最開始每個樣本的權重是一樣的术幔,訓練得到第一個分類器另萤,分對的樣本權重降低,分錯的樣本權重提高诅挑,然后進行下一輪訓練四敞。

? ? GBDT:假設第一輪擬合產(chǎn)生的殘差是10,那么第二輪就針對10進行擬合拔妥,結(jié)果是-5.兩者相加等于5.這樣逐步逼近0.

? ? XGBoost:和gbdt大體相同忿危。只是在擬合殘差時用的是二階泰勒展開,所以結(jié)果更為精確没龙。

五铺厨、算法評價與參數(shù)調(diào)整

聚類算法的評價稍微有些麻煩,一般可以用蘭德系數(shù)(Rind? Index)進行評估硬纤。

分類算法可以用平均絕對誤差解滓、平均絕對百分誤差、均方根誤差等評價

分類算法可以用ROC曲線筝家,AUC洼裤,混淆矩陣等進行評價

部分算法也自帶了評價方法。

參數(shù)調(diào)整:一般使用GridSearchCV進行調(diào)參肛鹏。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末逸邦,一起剝皮案震驚了整個濱河市恩沛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缕减,老刑警劉巖雷客,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異桥狡,居然都是意外死亡搅裙,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門裹芝,熙熙樓的掌柜王于貴愁眉苦臉地迎上來部逮,“玉大人,你說我怎么就攤上這事嫂易⌒峙螅” “怎么了?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵怜械,是天一觀的道長颅和。 經(jīng)常有香客問我,道長缕允,這世上最難降的妖魔是什么峡扩? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮障本,結(jié)果婚禮上教届,老公的妹妹穿的比我還像新娘。我一直安慰自己驾霜,他們只是感情好案训,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著寄悯,像睡著了一般萤衰。 火紅的嫁衣襯著肌膚如雪堕义。 梳的紋絲不亂的頭發(fā)上猜旬,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天,我揣著相機與錄音倦卖,去河邊找鬼洒擦。 笑死,一個胖子當著我的面吹牛怕膛,可吹牛的內(nèi)容都是我干的熟嫩。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼褐捻,長吁一口氣:“原來是場噩夢啊……” “哼掸茅!你這毒婦竟也來了椅邓?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤昧狮,失蹤者是張志新(化名)和其女友劉穎景馁,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體逗鸣,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡合住,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了撒璧。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片透葛。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖卿樱,靈堂內(nèi)的尸體忽然破棺而出僚害,到底是詐尸還是另有隱情,我是刑警寧澤繁调,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布贡珊,位于F島的核電站,受9級特大地震影響涉馁,放射性物質(zhì)發(fā)生泄漏门岔。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一烤送、第九天 我趴在偏房一處隱蔽的房頂上張望寒随。 院中可真熱鬧,春花似錦帮坚、人聲如沸妻往。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽讯泣。三九已至,卻和暖如春阅悍,著一層夾襖步出監(jiān)牢的瞬間好渠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工节视, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留拳锚,地道東北人。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓寻行,卻偏偏與公主長得像霍掺,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容