統(tǒng)計(jì)學(xué)泪掀,機(jī)器學(xué)習(xí)伴挚,線性代數(shù)里面有很多聽起來很復(fù)雜的概念(科學(xué)家總是喜歡給一些簡單的東西搞復(fù)雜的高大上的名字)。這個(gè)文章就是用我自己的理解酪我,對這些概念做出幾句話的解釋或圖畫說明,以及一個(gè)好理解的概念且叁。長期更新
機(jī)器學(xué)習(xí)相關(guān)
1)訓(xùn)練集/驗(yàn)證集/測試集
一個(gè)數(shù)據(jù)集都哭,按比例(一般是8:1:1或者7:1.5:1.5或者大致比例)分為三部分,即訓(xùn)練集逞带,驗(yàn)證和測試集质涛。
訓(xùn)練集:把一個(gè)學(xué)生理解為一個(gè)做題的模型,那么可以理解為平時(shí)做的家庭作業(yè)就是訓(xùn)練集掰担,通過這些習(xí)題汇陆,總結(jié)一套解題的方法(模型的系數(shù)矩陣)。這個(gè)解題的方法就是模型带饱。
驗(yàn)證集:可以理解為期末考試毡代,拿一份新的試題(學(xué)生之前沒有見過阅羹,如果是原題的話,大家都是滿分了)教寂,讓學(xué)生去做捏鱼,也就是驗(yàn)證之前解題方法(模型)的效果。如果效果不好酪耕,再回頭做更多的家庭作業(yè)調(diào)整解題方法(模型)导梆,直到期末考試的成績比較理想為止。
測試集:可以理解為最終的高考迂烁,再拿一套新的試題(家庭作業(yè)和期末考試都沒見過的)看尼,考學(xué)生的解題方法,得到一個(gè)分?jǐn)?shù)盟步,這個(gè)分?jǐn)?shù)就是測試集的結(jié)果藏斩,也就是最終這個(gè)模型的效果(家庭作業(yè)和期末考試的成績不能算數(shù),因?yàn)槟愣家娺^很多次了却盘,分?jǐn)?shù)再高也不奇怪)
2)過擬合
正規(guī)解釋:模型在測試集上的效果(召回率精確率)狰域,比同一個(gè)模型在訓(xùn)練集上效果要差,這種現(xiàn)象叫做過擬合
通俗解釋:
你可以把自己理解為一個(gè)模型黄橘,訓(xùn)練集就是你平時(shí)回家做家庭作業(yè)的結(jié)果兆览。測試集就是你期末考試的成績。過擬合就是說你平時(shí)考試成績都挺好的塞关,但是期末考試考砸了(比平時(shí)差)抬探,為什么呢?因?yàn)槟阒粫獯鹉阋娺^的題目(沒有融匯貫通舉一反三描孟,或者說泛化能力差)驶睦,新出來的(和之前做過的變化比較大的題目)有很多你沒太見過的就不太會砰左,所以成績就差了一些匿醒。
發(fā)現(xiàn)一張圖可以很好的解釋過擬合
3)正則化
概念解釋:當(dāng)一個(gè)模型使用的特征過多,導(dǎo)致模型過于復(fù)雜而泛化能力下降缠导,引起過擬合廉羔。這時(shí)我們就需要將模型中的特征數(shù)量減少從而降低模型的復(fù)雜度,降低過擬合的風(fēng)險(xiǎn)僻造。簡單說就是特征降維憋他。
通俗解釋:
還拿考試來舉例子,好像你平時(shí)做習(xí)題的時(shí)候總結(jié)了一套特別復(fù)雜的方法(模型)來解一類題型髓削,但是這個(gè)方法過于復(fù)雜了只能用在這一種題型中而對其他類似的題型效果不好竹挡,所以如果期末考試出來其他題型的話成績就會差。正則化的意思就是降低你這個(gè)方法的復(fù)雜程度立膛,讓他盡量滿足更多的題型從而在期末考試得到更好的成績揪罕。
4)有監(jiān)督學(xué)習(xí)/無監(jiān)督學(xué)習(xí)/半監(jiān)督學(xué)習(xí)
有監(jiān)督:即需要人工進(jìn)行標(biāo)注(label)梯码,算法以這個(gè)標(biāo)注的結(jié)果作為基準(zhǔn)監(jiān)督自己的模型參數(shù),常見的有分類(label為離散值)和回歸(label為連續(xù)值)兩種
無監(jiān)督:即不需要人工進(jìn)行標(biāo)注好啰,算法根據(jù)數(shù)據(jù)自己的關(guān)系將數(shù)據(jù)分成x類(x也可以自己定義轩娶,如我想把某一份數(shù)據(jù)分成3類那x=3)
半監(jiān)督:就是大量的數(shù)據(jù)集里面只有少部分有標(biāo)注,而其余大部分都沒有框往,這時(shí)候就用到半監(jiān)督學(xué)習(xí)鳄抒,半監(jiān)督的大致思想是先用無監(jiān)督把數(shù)據(jù)分成x類,再根據(jù)已經(jīng)標(biāo)注好的數(shù)據(jù)集椰弊,對每一類進(jìn)行定義(某類里面標(biāo)注為1類比較多的许溅,那就把這一堆都標(biāo)記為1類)
5)分類/回歸/聚類
分類:有監(jiān)督學(xué)習(xí)中的一種,label為離散值(也就是要預(yù)測的對象是離散的)男应,按label的種類又可以分為二分類和多分類闹司,如是否作弊(1/0),男性女性(1/0)沐飘,收入高低(高/中/低)游桩,年齡階段(0-10/10-20/20-40/40-60/60+)等,
回歸:有監(jiān)督學(xué)習(xí)中的一種耐朴,label為連續(xù)值(也就是要預(yù)測的對象是連續(xù)的)借卧,比如預(yù)測房價(jià),預(yù)測股價(jià)等筛峭。
聚類:常見的無監(jiān)督算法铐刘,自定義需要分類的數(shù)量,算法自動(dòng)生成影晓,如Kmeans
to be continued