學(xué)習(xí)筆記

機(jī)器學(xué)習(xí)理論基礎(chǔ)

來自《scikit-learn機(jī)器學(xué)習(xí)》

過擬合和欠擬合

過擬合是指模型能很好的擬合訓(xùn)練樣本,但對(duì)新樣本的預(yù)測(cè)準(zhǔn)確性很差。 高方差
欠擬合是指 模型不能很好的擬合訓(xùn)練樣本寿桨,且對(duì)新樣本的預(yù)測(cè)準(zhǔn)確性也不是很好汉柒。 高偏差

成本函數(shù)

成本是衡量模型與訓(xùn)練樣本符合程度的指標(biāo)。簡(jiǎn)單的理解春叫,成本是針對(duì)所有的訓(xùn)練樣本肩钠,模型擬合出來的值與訓(xùn)練樣本的真實(shí)值的誤差平均值。模型訓(xùn)練的過程中象缀,要使成本函數(shù)的值最小蔬将。

學(xué)習(xí)曲線

學(xué)習(xí)曲線是指模型的準(zhǔn)確性與數(shù)據(jù)集大小的關(guān)系,通過學(xué)習(xí)曲線可以直觀的判斷模型訓(xùn)練的情況央星,方便改進(jìn)模型霞怀。
Pipeline流水線來構(gòu)造多項(xiàng)式模型

from sklearn.pipeline inport Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.liner_model import LinearRegression
def polymial_model(degree=1):
    polynimail_features = PolymailFeatures(degree=degree,include_bias=False)
    linear_regression = LinearRegression()
    # 這是一個(gè)流水線,先增加多項(xiàng)式階數(shù)莉给,然后再用線性回歸算法來擬合數(shù)據(jù)毙石。
    pipeline = Pipeline([("polynomail_features",polynomail_features),("linear_regressin",linear_regression])
    return pipeline

學(xué)習(xí)曲線調(diào)包

from sklearn.model_selection import learning_curve
train_sizes, train_scores, test_scores = learn_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)

模型的性能優(yōu)化

過擬合:獲取更多的訓(xùn)練樣本,或者減少輸入的特征數(shù)量
欠擬合:增加有價(jià)值的特征颓遏,增加多項(xiàng)式特征

Precision和Recall

Precision是預(yù)測(cè)為正的樣本中正確的概率徐矩。
Recall是所有正的樣本中預(yù)測(cè)成功的概率。
倆者一般都是相斥的叁幢,Precision大Recall小滤灯,Recall大Precision小

F1score

F1score用來判斷哪個(gè)算法好,因?yàn)楫?dāng)判斷算法的兩個(gè)指標(biāo)一個(gè)大一個(gè)小的時(shí)候曼玩,怎樣判斷哪個(gè)算法最好鳞骤,這就需要將兩個(gè)算法發(fā)在一起。
F1score = 2*(PR/P+R)

k臨近算法

核心思想是未標(biāo)記的樣本點(diǎn)黍判,由與它最接近的k的樣本值的類別來判斷豫尽。
偽代碼如下:

  • 遍歷訓(xùn)練集中的所有樣本,計(jì)算每個(gè)樣本與X_test的距離顷帖,并將其保存在Distance數(shù)組中
  • 對(duì)Distance數(shù)組進(jìn)行排序美旧,取最近的k個(gè)點(diǎn) 渤滞,記為X_knn
  • 在X_knn中統(tǒng)計(jì)樣本類別的個(gè)數(shù)
  • 待標(biāo)記樣本的類別就是在X_knn中樣本個(gè)數(shù)最多的那個(gè)類別。

優(yōu)點(diǎn):準(zhǔn)確度高榴嗅,對(duì)異常值和噪聲有較高的容忍度妄呕。
缺點(diǎn):計(jì)算量大,對(duì)內(nèi)存的要求也大嗽测。
算法參數(shù):k k值越大趴腋,模型的偏差越大,對(duì)噪聲數(shù)據(jù)不敏感论咏,欠擬合优炬。k值越小,過擬合
算法的變種:增加鄰居的權(quán)重厅贪,針對(duì)不同的鄰居指定不同的距離權(quán)重蠢护,距離越近,權(quán)重值越高养涮。

from sklearn.neighbors import KNeighborsClassifier

k = 5
clf = KNeighborsClassifier(n_neighbors=k)
clf.fit(X,y)
y_sample = clf.predict(X_sample)

knn算法也可以實(shí)現(xiàn)回歸擬合

from sklearn.neighbors import KNeighborsRegressor

可以用knn.score() 方法計(jì)算擬合曲線針對(duì)樣本的擬合準(zhǔn)確性

數(shù)據(jù)分割

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.2)

線性回歸算法

模型優(yōu)化:當(dāng)線性回歸模型太簡(jiǎn)單導(dǎo)致欠擬合時(shí)葵硕,我們可以增加特征多項(xiàng)式來讓線性模型更加地?cái)M合數(shù)據(jù)。
在scikit-learn里贯吓,線性回歸是由類 sklearn.linear_model.LinearRegression 實(shí)現(xiàn)懈凹,多項(xiàng)式由類 sklearn.preprocessing.PolynomailFeatures 實(shí)現(xiàn)。

邏輯回歸算法

邏輯回歸是實(shí)現(xiàn)分類問題的一種機(jī)器學(xué)習(xí)算法悄谐,它主要的思想是怎樣把預(yù)測(cè)值的輸出控制在0和1之間介评,我們知道線性回歸算法的預(yù)測(cè)值是正無窮到負(fù)無窮,那么怎樣把值的輸出控制在(0,1)之間呢爬舰?這就需要使用Sigmoid函數(shù)

g(z)=1/(1+e^{-z})

判斷條件是0.5们陆,大于0.5則為1,小于0.5則為0.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末情屹,一起剝皮案震驚了整個(gè)濱河市坪仇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌垃你,老刑警劉巖椅文,帶你破解...
    沈念sama閱讀 222,183評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異惜颇,居然都是意外死亡皆刺,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門官还,熙熙樓的掌柜王于貴愁眉苦臉地迎上來芹橡,“玉大人毒坛,你說我怎么就攤上這事望伦×炙担” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵屯伞,是天一觀的道長(zhǎng)腿箩。 經(jīng)常有香客問我,道長(zhǎng)劣摇,這世上最難降的妖魔是什么珠移? 我笑而不...
    開封第一講書人閱讀 59,854評(píng)論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮末融,結(jié)果婚禮上钧惧,老公的妹妹穿的比我還像新娘。我一直安慰自己勾习,他們只是感情好浓瞪,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著巧婶,像睡著了一般乾颁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上艺栈,一...
    開封第一講書人閱讀 52,457評(píng)論 1 311
  • 那天英岭,我揣著相機(jī)與錄音,去河邊找鬼湿右。 笑死诅妹,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的毅人。 我是一名探鬼主播漾唉,決...
    沈念sama閱讀 40,999評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼堰塌!你這毒婦竟也來了赵刑?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,914評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤场刑,失蹤者是張志新(化名)和其女友劉穎般此,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體牵现,經(jīng)...
    沈念sama閱讀 46,465評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡铐懊,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瞎疼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片科乎。...
    茶點(diǎn)故事閱讀 40,675評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖贼急,靈堂內(nèi)的尸體忽然破棺而出茅茂,到底是詐尸還是另有隱情捏萍,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評(píng)論 5 351
  • 正文 年R本政府宣布空闲,位于F島的核電站令杈,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏碴倾。R本人自食惡果不足惜逗噩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望跌榔。 院中可真熱鬧异雁,春花似錦、人聲如沸僧须。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽皆辽。三九已至柑蛇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間驱闷,已是汗流浹背耻台。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評(píng)論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留空另,地道東北人盆耽。 一個(gè)月前我還...
    沈念sama閱讀 49,091評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像扼菠,于是被迫代替她去往敵國和親摄杂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評(píng)論 2 360

推薦閱讀更多精彩內(nèi)容