什么是超參數(shù)
所謂超參數(shù)折砸,就是機(jī)器學(xué)習(xí)模型里面的框架參數(shù)妹孙,比如聚類方法里面類的個(gè)數(shù)倦炒,或者話題模型里面話題的個(gè)數(shù)等等,都稱為超參數(shù)刁卜。它們跟訓(xùn)練過程中學(xué)習(xí)的參數(shù)(權(quán)重)是不一樣的志电,通常是手工設(shè)定,不斷試錯(cuò)調(diào)整蛔趴,或者對一系列窮舉出來的參數(shù)組合一通枚舉(叫做網(wǎng)格搜索)挑辆。
什么是Grid Search 網(wǎng)格搜索?
Grid Search:一種調(diào)參手段孝情;窮舉搜索:在所有候選的參數(shù)選擇中鱼蝉,通過循環(huán)遍歷,嘗試每一種可能性箫荡,表現(xiàn)最好的參數(shù)就是最終的結(jié)果魁亦。其原理就像是在數(shù)組里找最大值。(為什么叫網(wǎng)格搜索羔挡?以有兩個(gè)參數(shù)的模型為例洁奈,參數(shù)a有3種可能,參數(shù)b有4種可能绞灼,把所有可能性列出來利术,可以表示成一個(gè)3*4的表格,其中每個(gè)cell就是一個(gè)網(wǎng)格镀赌,循環(huán)過程就像是在每個(gè)網(wǎng)格里遍歷氯哮、搜索际跪,所以叫g(shù)rid search)
Hyper-parameter Tuning超參數(shù)調(diào)試處理
在機(jī)器學(xué)習(xí)領(lǐng)域商佛,超參數(shù)比較少的情況下,我們之前利用設(shè)置網(wǎng)格點(diǎn)的方式來調(diào)試超參數(shù)姆打;
但在深度學(xué)習(xí)領(lǐng)域良姆,超參數(shù)較多的情況下,不是設(shè)置規(guī)則的網(wǎng)格點(diǎn)幔戏,而是隨機(jī)選擇點(diǎn)進(jìn)行調(diào)試玛追。這樣做是因?yàn)樵谖覀兲幚韱栴}的時(shí)候,是無法知道哪個(gè)超參數(shù)是更重要的闲延,所以隨機(jī)的方式去測試超參數(shù)點(diǎn)的性能痊剖,更為合理,這樣可以探究更超參數(shù)的潛在價(jià)值垒玲。如果在某一區(qū)域找到一個(gè)效果好的點(diǎn)陆馁,將關(guān)注點(diǎn)放到點(diǎn)附近的小區(qū)域內(nèi)繼續(xù)尋找。
不過有可能會(huì)出現(xiàn)over tuning的情況合愈,就是超參數(shù)太適合training data了不適合別的test data(類似于over fitting)
Regession回歸
監(jiān)督學(xué)習(xí)中叮贩,如果預(yù)測的變量是離散的击狮,我們稱其為分類(如決策樹,支持向量機(jī)等)益老,如果預(yù)測的變量是連續(xù)的彪蓬,我們稱其為回歸。
回歸(Regression):Y變量為連續(xù)數(shù)值型(continuous?numerical?variable)
如:房價(jià)捺萌,人數(shù)档冬,降雨量
分類(Classification): Y變量為類別型(categorical?variable)
如:顏色類別,電腦品牌互婿,有無信譽(yù)
回歸分析(regression analysis)
建立方程模擬兩個(gè)或者多個(gè)變量之間的關(guān)系的過程
被預(yù)測的變量叫做:因變量(dependent variable), y, 輸出(output)
被用來進(jìn)行預(yù)測的變量叫做: 自變量(independent variable), x, 輸入(input)
在統(tǒng)計(jì)學(xué)中捣郊,回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣泛慈参,回歸分析按照涉及的變量的多少呛牲,分為一元回歸和多元回歸分析;按照自變量(百度百科 中這里寫的是因變量驮配,個(gè)人覺得應(yīng)該是自變量)的多少娘扩,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型壮锻,可分為線性回歸分析和非線性回歸分析琐旁。如果在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量猜绣,且二者的關(guān)系可用一條直線近似表示灰殴,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量掰邢,且自變量之間存在線性相關(guān)牺陶,則稱為多重線性回歸分析。在大數(shù)據(jù)分析中辣之,回歸分析是一種預(yù)測性的建模技術(shù)掰伸,它研究的是因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系。這種技術(shù)通常用于預(yù)測分析怀估,時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系狮鸭。例如,司機(jī)的魯莽駕駛與道路交通事故數(shù)量之間的關(guān)系多搀,最好的研究方法就是回歸歧蕉。
線性回歸(Linear Regression)
簡單線性回歸包含一個(gè)自變量(x)和一個(gè)因變量(y),兩個(gè)變量的關(guān)系用一條直線來模擬康铭。
適用于比較直觀的關(guān)系惯退,比如銷量和收入
Gradient Descent(梯度下降)
怎么樣能夠看出線性函數(shù)擬合的好不好呢?
我們需要使用到Cost Function(代價(jià)函數(shù))麻削,代價(jià)函數(shù)越小蒸痹,說明線性回歸地越好(和訓(xùn)練集擬合地越好)春弥,當(dāng)然最小就是0,即完全擬合叠荠;
但是又一個(gè)問題引出了匿沛,雖然給定一個(gè)函數(shù),我們能夠根據(jù)cost function知道這個(gè)函數(shù)擬合的好不好榛鼎,但是畢竟函數(shù)有這么多逃呼,總不可能一個(gè)一個(gè)試吧?
因此我們引出了梯度下降:能夠找出cost function函數(shù)的最小值者娱;
梯度下降原理:將函數(shù)比作一座山抡笼,我們站在某個(gè)山坡上,往四周看黄鳍,從哪個(gè)方向向下走一小步推姻,能夠下降的最快;
當(dāng)然解決問題的方法有很多框沟,梯度下降只是其中一個(gè)藏古,還有一種方法叫Normal Equation;
下圖就詳細(xì)的說明了梯度下降的過程:
梯度下降能夠求出一個(gè)函數(shù)的最小值忍燥;
線性回歸需要求出拧晕,使得cost function的最小梅垄;