ML堅持之路_Day1

Day_1

步驟一 —— 導(dǎo)入必需庫

在進(jìn)行數(shù)據(jù)分析，需要兩個必須常用庫 —— pandas 办龄、 Numpy

import numpy as np
import pandas as pd

步驟二 —— 導(dǎo)入數(shù)據(jù)集

數(shù)據(jù)集一般為.csv格式烘绽，且通常為表格形式。每一行都有對應(yīng)的數(shù)據(jù)記錄

我們使用pandas中的read_csv的方式來讀取數(shù)據(jù)集的內(nèi)容俐填，然后可以在Dataframe中分離矩陣和相關(guān)和不相關(guān)的向量

dataset = pd.read_csv(filepath_or_buffer=" ")
X = dataset.iloc[ : , : -1].values
Y = dataset.iloc[ : , 3].values

步驟三 —— 缺失值處理

關(guān)于缺失值（missing value）的處理安接，在sklearn的preprocessing包中包含了對數(shù)據(jù)集中缺失值的處理，主要是應(yīng)用Imputer類進(jìn)行處理

進(jìn)行處理的數(shù)據(jù)集中包含缺失值一般步驟如下：

使用字符串'nan'來代替數(shù)據(jù)集中的缺失值英融；
將該數(shù)據(jù)集轉(zhuǎn)換為浮點(diǎn)型便可以得到包含np.nan的數(shù)據(jù)集盏檐；
使用sklearn.preprocessing.Imputer類來處理使用np.nan對缺失值進(jìn)行編碼過的

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values= "NaN", strategy= "mean", axis= 0)
imputer = imputer.fit(X[ : , 1: 3])
X[ : , 1: 3] = imputer.transform(X[ : , 1: 3])

步驟四 —— 分類數(shù)據(jù)編碼

分類數(shù)據(jù)一般包含標(biāo)簽分類值，而不是數(shù)據(jù)值驶悟⌒喾剩可能的變量通常限制在固定數(shù)據(jù)集中佛南。單純的變量值不能在數(shù)學(xué)模型等式中使用，所以我們需要對分類數(shù)據(jù)編碼成數(shù)字。

作法：從sklearn.preprocessing中導(dǎo)入LabelEncoder類

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

再創(chuàng)建一個虛擬變量 (變量dummy化)

dummy variable是用0或1表示某個類別是否出現(xiàn)

onehotencoder = Onehotencoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder() 
Y = labelencoder_Y.fit_transform(Y)

步驟五 —— 將數(shù)據(jù)集分成測試集和訓(xùn)練集

將數(shù)據(jù)集分為兩個部分穗椅，一個訓(xùn)練集，另一個用來測試所建立的模型的表現(xiàn)装畅。

通常分配數(shù)據(jù)比例為 80/20 晶衷。

接下來采用從sklearn.model_selection庫中導(dǎo)入train_test_split()類

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size= 0.2, random_state= 0)

注意：原來的cross_validation模塊被棄用了，改為支持model_selection這個模塊

步驟六 —— 特征縮放 (Feature scaling)

feature scaling（特征縮放）的思想就是將所選特征的value都縮放到一個大致相似的范圍

通常來說抄邀，大部分機(jī)器學(xué)習(xí)算法都采用歐氏距離來計算兩地的距離耘眨。特征在不同的量級、單位境肾、排列上的極度不同會產(chǎn)生問題剔难。高量級的數(shù)據(jù)的歐式距離的計算量會很大胆屿。

為使得特征標(biāo)準(zhǔn)化或Z-score統(tǒng)一化，需要導(dǎo)入 sklearn.preprocessing中的StandardScalar

代碼如下：

from sklearn.preprocessing import StandardScalar
sc_X = StandardScalar()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

第一天的學(xué)習(xí)結(jié)束啦偶宫，開心??

本文作者： Keithxodoy
文章為作者一字一句敲出來非迹，整理實(shí)在不容易，希望各位轉(zhuǎn)載寫明出處
須知：未經(jīng)允許纯趋，不得轉(zhuǎn)載

最后編輯于：2018.08.05 21:51:23

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末憎兽，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子吵冒，更是在濱河造成了極大的恐慌纯命，老刑警劉巖，帶你破解...
沈念sama閱讀 212,454評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件痹栖，死亡現(xiàn)場離奇詭異亿汞，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)揪阿，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,553評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門疗我，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人南捂，你說我怎么就攤上這事吴裤。” “怎么了溺健？”我有些...
開封第一講書人閱讀 157,921評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵嚼摩，是天一觀的道長。經(jīng)常有香客問我矿瘦，道長枕面，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,648評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任缚去，我火速辦了婚禮潮秘，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘易结。我一直安慰自己枕荞，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,770評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布搞动。她就那樣靜靜地躺著躏精，像睡著了一般。火紅的嫁衣襯著肌膚如雪鹦肿。梳的紋絲不亂的頭發(fā)上矗烛，一...
開封第一講書人閱讀 49,950評論 1贊 291
城市分裂傳說
那天，我揣著相機(jī)與錄音箩溃，去河邊找鬼瞭吃。笑死碌嘀，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的歪架。我是一名探鬼主播股冗，決...
沈念sama閱讀 39,090評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼和蚪！你這毒婦竟也來了止状？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,817評論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤攒霹，失蹤者是張志新（化名）和其女友劉穎怯疤，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體剔蹋，經(jīng)...
沈念sama閱讀 44,275評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,592評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年辅髓，在試婚紗的時候發(fā)現(xiàn)自己被綠了泣崩。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,724評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡洛口，死狀恐怖矫付，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情第焰，我是刑警寧澤买优，帶...
沈念sama閱讀 34,409評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站挺举，受9級特大地震影響杀赢，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜湘纵，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,052評論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一脂崔、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧梧喷，春花似錦砌左、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,815評論 0贊 21
一樁弒父案汇歹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至偿凭，卻和暖如春产弹，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背弯囊。一陣腳步聲響...
開封第一講書人閱讀 32,043評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工取视，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留硝皂，地道東北人。一個月前我還...
沈念sama閱讀 46,503評論 2贊 361
代替公主和親
正文我出身青樓作谭，卻偏偏與公主長得像稽物，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子折欠，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,627評論 2贊 350