學(xué)習(xí)筆記

機(jī)器學(xué)習(xí)理論基礎(chǔ)

來自《scikit-learn機(jī)器學(xué)習(xí)》

過擬合和欠擬合

過擬合是指模型能很好的擬合訓(xùn)練樣本，但對(duì)新樣本的預(yù)測(cè)準(zhǔn)確性很差。 高方差
欠擬合是指模型不能很好的擬合訓(xùn)練樣本寿桨，且對(duì)新樣本的預(yù)測(cè)準(zhǔn)確性也不是很好汉柒。 高偏差

成本函數(shù)

成本是衡量模型與訓(xùn)練樣本符合程度的指標(biāo)。簡(jiǎn)單的理解春叫，成本是針對(duì)所有的訓(xùn)練樣本肩钠，模型擬合出來的值與訓(xùn)練樣本的真實(shí)值的誤差平均值。模型訓(xùn)練的過程中象缀，要使成本函數(shù)的值最小蔬将。

學(xué)習(xí)曲線

學(xué)習(xí)曲線是指模型的準(zhǔn)確性與數(shù)據(jù)集大小的關(guān)系，通過學(xué)習(xí)曲線可以直觀的判斷模型訓(xùn)練的情況央星，方便改進(jìn)模型霞怀。
Pipeline流水線來構(gòu)造多項(xiàng)式模型

from sklearn.pipeline inport Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.liner_model import LinearRegression
def polymial_model(degree=1):
    polynimail_features = PolymailFeatures(degree=degree,include_bias=False)
    linear_regression = LinearRegression()
    # 這是一個(gè)流水線，先增加多項(xiàng)式階數(shù)莉给，然后再用線性回歸算法來擬合數(shù)據(jù)毙石。
    pipeline = Pipeline([("polynomail_features",polynomail_features),("linear_regressin",linear_regression])
    return pipeline

學(xué)習(xí)曲線調(diào)包

from sklearn.model_selection import learning_curve
train_sizes, train_scores, test_scores = learn_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)

模型的性能優(yōu)化

過擬合：獲取更多的訓(xùn)練樣本，或者減少輸入的特征數(shù)量
欠擬合：增加有價(jià)值的特征颓遏，增加多項(xiàng)式特征

Precision和Recall

Precision是預(yù)測(cè)為正的樣本中正確的概率徐矩。
Recall是所有正的樣本中預(yù)測(cè)成功的概率。
倆者一般都是相斥的叁幢，Precision大Recall小滤灯，Recall大Precision小

F1score

F1score用來判斷哪個(gè)算法好，因?yàn)楫?dāng)判斷算法的兩個(gè)指標(biāo)一個(gè)大一個(gè)小的時(shí)候曼玩，怎樣判斷哪個(gè)算法最好鳞骤，這就需要將兩個(gè)算法發(fā)在一起。
F1score = 2*(PR/P+R)

k臨近算法

核心思想是未標(biāo)記的樣本點(diǎn)黍判，由與它最接近的k的樣本值的類別來判斷豫尽。
偽代碼如下：

遍歷訓(xùn)練集中的所有樣本，計(jì)算每個(gè)樣本與X_test的距離顷帖，并將其保存在Distance數(shù)組中
對(duì)Distance數(shù)組進(jìn)行排序美旧，取最近的k個(gè)點(diǎn) 渤滞，記為X_knn
在X_knn中統(tǒng)計(jì)樣本類別的個(gè)數(shù)
待標(biāo)記樣本的類別就是在X_knn中樣本個(gè)數(shù)最多的那個(gè)類別。

優(yōu)點(diǎn)：準(zhǔn)確度高榴嗅，對(duì)異常值和噪聲有較高的容忍度妄呕。
缺點(diǎn)：計(jì)算量大，對(duì)內(nèi)存的要求也大嗽测。
算法參數(shù)：k k值越大趴腋，模型的偏差越大，對(duì)噪聲數(shù)據(jù)不敏感论咏，欠擬合优炬。k值越小，過擬合
算法的變種：增加鄰居的權(quán)重厅贪，針對(duì)不同的鄰居指定不同的距離權(quán)重蠢护，距離越近，權(quán)重值越高养涮。

from sklearn.neighbors import KNeighborsClassifier

k = 5
clf = KNeighborsClassifier(n_neighbors=k)
clf.fit(X,y)
y_sample = clf.predict(X_sample)

knn算法也可以實(shí)現(xiàn)回歸擬合

from sklearn.neighbors import KNeighborsRegressor

可以用knn.score() 方法計(jì)算擬合曲線針對(duì)樣本的擬合準(zhǔn)確性

數(shù)據(jù)分割

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.2)

線性回歸算法

模型優(yōu)化：當(dāng)線性回歸模型太簡(jiǎn)單導(dǎo)致欠擬合時(shí)葵硕，我們可以增加特征多項(xiàng)式來讓線性模型更加地?cái)M合數(shù)據(jù)。
在scikit-learn里贯吓，線性回歸是由類 sklearn.linear_model.LinearRegression 實(shí)現(xiàn)懈凹，多項(xiàng)式由類 sklearn.preprocessing.PolynomailFeatures 實(shí)現(xiàn)。

邏輯回歸算法

邏輯回歸是實(shí)現(xiàn)分類問題的一種機(jī)器學(xué)習(xí)算法悄谐，它主要的思想是怎樣把預(yù)測(cè)值的輸出控制在0和1之間介评，我們知道線性回歸算法的預(yù)測(cè)值是正無窮到負(fù)無窮，那么怎樣把值的輸出控制在（0,1）之間呢爬舰？這就需要使用Sigmoid函數(shù)

g(z)=1/(1+e^{-z})

判斷條件是0.5们陆，大于0.5則為1，小于0.5則為0.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末情屹，一起剝皮案震驚了整個(gè)濱河市坪仇，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌垃你，老刑警劉巖椅文，帶你破解...
沈念sama閱讀 222,183評(píng)論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異惜颇，居然都是意外死亡皆刺，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,850評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門官还，熙熙樓的掌柜王于貴愁眉苦臉地迎上來芹橡，“玉大人毒坛，你說我怎么就攤上這事望伦×炙担” “怎么了？”我有些...
開封第一講書人閱讀 168,766評(píng)論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵屯伞，是天一觀的道長(zhǎng)腿箩。經(jīng)常有香客問我，道長(zhǎng)劣摇，這世上最難降的妖魔是什么珠移？我笑而不...
開封第一講書人閱讀 59,854評(píng)論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮末融，結(jié)果婚禮上钧惧，老公的妹妹穿的比我還像新娘。我一直安慰自己勾习，他們只是感情好浓瞪，可當(dāng)我...
茶點(diǎn)故事閱讀 68,871評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著巧婶，像睡著了一般乾颁。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上艺栈，一...
開封第一講書人閱讀 52,457評(píng)論 1贊 311
城市分裂傳說
那天英岭，我揣著相機(jī)與錄音，去河邊找鬼湿右。笑死诅妹，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的毅人。我是一名探鬼主播漾唉，決...
沈念sama閱讀 40,999評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼堰塌！你這毒婦竟也來了赵刑？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,914評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤场刑，失蹤者是張志新（化名）和其女友劉穎般此，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體牵现，經(jīng)...
沈念sama閱讀 46,465評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡铐懊，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,543評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瞎疼。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片科乎。...
茶點(diǎn)故事閱讀 40,675評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖贼急，靈堂內(nèi)的尸體忽然破棺而出茅茂，到底是詐尸還是另有隱情捏萍，我是刑警寧澤，帶...
沈念sama閱讀 36,354評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布空闲，位于F島的核電站令杈，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏碴倾。R本人自食惡果不足惜逗噩，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,029評(píng)論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望跌榔。院中可真熱鬧异雁，春花似錦、人聲如沸僧须。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,514評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽皆辽。三九已至柑蛇，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間驱闷，已是汗流浹背耻台。一陣腳步聲響...
開封第一講書人閱讀 33,616評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留空另，地道東北人盆耽。一個(gè)月前我還...
沈念sama閱讀 49,091評(píng)論 3贊 378
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像扼菠，于是被迫代替她去往敵國和親摄杂。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,685評(píng)論 2贊 360