機(jī)器學(xué)習(xí)是根據(jù)不同事物的特征來推導(dǎo)它的分類或者預(yù)測(cè)它未來的值趾牧,
大類有分類和回歸,分類好理解就是把桃花和菊花分開阱穗,又分二分類和多分類。回歸就是預(yù)測(cè)房?jī)r(jià)笼呆,股價(jià)這種,預(yù)測(cè)具體的值旨别。
方法主要分為監(jiān)督學(xué)習(xí)诗赌、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。最大區(qū)別是訓(xùn)練集(已知事物)是否有對(duì)應(yīng)的類別標(biāo)簽秸弛。
監(jiān)督學(xué)習(xí)就是用已知的事物特征(feature)和類別(label)
铭若,訓(xùn)練一個(gè)模型,用于預(yù)測(cè)只有特征的事物是哪個(gè)類別递览。
特征可以理解為導(dǎo)致分類的一些影響因素叼屠,比如分類桃花和菊花,可能特征就是顏色绞铃,花瓣數(shù)量镜雨,開花時(shí)間等等。
無監(jiān)督學(xué)習(xí)是根據(jù)已知的事物特征進(jìn)行聚類儿捧。
半監(jiān)督學(xué)習(xí)是部分有l(wèi)abel荚坞。
這是文檔給出的導(dǎo)圖
api
我使用的一般基本流程是:
1.收集數(shù)據(jù),一般爬蟲就在這里用菲盾,包括特征(label颓影,監(jiān)督學(xué)習(xí)),用pandas處理數(shù)據(jù)得到更多的特征懒鉴,比如得到一些‘XX率’诡挂,得到原始的訓(xùn)練集。
2.用sklearn.processing對(duì)數(shù)據(jù)預(yù)處理临谱,normalize咆畏,主要針對(duì)的是feature數(shù)量級(jí)特別不一樣的情況,比如有10000和1.1吴裤,這種差別比較大的旧找,就會(huì)出現(xiàn)特征對(duì)結(jié)果的"貢獻(xiàn)"不一樣。(主要是影響梯度下降的計(jì)算)
還有一種預(yù)處理是把文字類型數(shù)據(jù)改成類別類型麦牺,
3.選取多個(gè)模型钮蛛,訓(xùn)練模型鞭缭,根據(jù)結(jié)果,得到學(xué)習(xí)曲線learning-curve魏颓,看是高偏差high bias還是高方差variance岭辣,調(diào)整原始數(shù)據(jù),選擇加入更多的數(shù)據(jù)甸饱,還是調(diào)整參數(shù)沦童。
4.用新數(shù)據(jù)訓(xùn)練模型,選取效果好的叹话,用 驗(yàn)證曲線cross-validation curve輔助來調(diào)參偷遗。
5.用grid網(wǎng)格化搜索參數(shù)
寫在最后
我的數(shù)學(xué)水平大概在能知道求導(dǎo),積分的概念驼壶,基本就是高中生水平氏豌,機(jī)器學(xué)習(xí)的確需要很高的數(shù)學(xué)基礎(chǔ),但是只是運(yùn)用的話热凹,就不需要那么高的水平泵喘,我覺得了解各個(gè)模型的參數(shù)影響什么,能夠調(diào)參就行了般妙。
機(jī)器學(xué)習(xí)我主要是看了吳恩達(dá)的教程和[機(jī)器學(xué)習(xí)實(shí)戰(zhàn)](https://book.douban.com/subject/24703171/)纪铺,統(tǒng)計(jì)方面看了白話統(tǒng)計(jì)
這三個(gè)我覺得算是非常通俗易懂,我是先看的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)碟渺,感覺比較懵鲜锚,全靠吳恩達(dá)的教程,超級(jí)友好止状,推導(dǎo)由淺入深烹棉,關(guān)鍵把什么時(shí)候用攒霹,怎么樣用怯疤,流程是怎樣的都說的很清楚,超級(jí)推薦催束。
這個(gè)文集僅僅用于記錄我的學(xué)習(xí)心得集峦。