前言
貝葉斯優(yōu)化(Bayesian Optimization)是最近機器學(xué)習(xí)領(lǐng)域內(nèi)一個比較熱門的話題谋币,它應(yīng)該是在神經(jīng)網(wǎng)絡(luò)各類超參數(shù)的優(yōu)化中最先引起注意的偎血。神經(jīng)網(wǎng)絡(luò)本身的數(shù)學(xué)模型很簡單益缠,想要它表現(xiàn)好有决,需要高超的調(diào)參技巧匈庭,比如隱層數(shù)量仰禀、每個隱層的單元數(shù)、梯度下降的步長(learning rate)秦叛,每次mini batch所選擇的樣本數(shù)量等晦溪。這些參數(shù)人工調(diào)節(jié)很繁瑣,因此大家就想到了自動調(diào)參书闸。
網(wǎng)格搜索與隨機搜索
一般簡單的參數(shù)優(yōu)化方法就是網(wǎng)格搜索(grid search)尼变,這屬于暴力搜索,沒有什么技巧浆劲,強行遍歷嫌术。網(wǎng)格搜索在1維、2維牌借、3維的搜索空間表現(xiàn)相對來說不錯度气,很容易覆蓋到空間的大部分,而且耗時不大膨报。但它有個致命缺點磷籍,在高緯度會發(fā)生維度災(zāi)難。舉個例子现柠,假設(shè)在10維空間搜索院领,每個維度遍歷5個值,那就是5^10=9,765,625
够吩;假設(shè)有20維比然,那就是 5^20 = 95,367,431,640,625
。怎么樣周循,在計算之前可能沒想到結(jié)果會這么大吧强法?人對線性遞增的物體能夠估計的很好万俗,碰到指數(shù)遞增的物體則總是會犯錯誤,通常都會低估這種爆炸式的增長饮怯。
隨機搜索(random search)被證明是比網(wǎng)格搜索更好的方法闰歪,但是“隨機”性增加了不確定性,而且估計人們在心理上無法忍受這種失控感蓖墅,因此它在實際應(yīng)用中似乎應(yīng)用不那么廣泛库倘。隨機搜索能比網(wǎng)格搜索好的一個根本原因是搜索空間的低效維度特效(low effective dimensionality)。說白了论矾,就是不同的維度重要性不一樣于樟,我們只要能夠?qū)δ繕?biāo)函數(shù)值影響大的那些維度盡可能的覆蓋就可以了,剩下的影響小的維度不需要浪費精力去覆蓋拇囊。
下面這張圖很明確地說明了兩種方法的不同。這是個2維的搜索空間靶橱,豎直維度變化小寥袭、對目標(biāo)函數(shù)影響不大;水平維度對目標(biāo)函數(shù)影響更大关霸〈疲可以看到,在每個維度队寇,網(wǎng)格搜索都浪費了6個點的機會膘掰,而隨機分布則9個點幾乎都利用上了!
隨機搜索和網(wǎng)格搜索都具有一個盲目性的缺點佳遣,無論已經(jīng)搜了多少次识埋,還是不知道未來哪些點更有可能是最值點。所以他們都是”瞎的“零渐、”不長記性“的模型窒舟。
定義
貝葉斯優(yōu)化是一種尋找目標(biāo)函數(shù)最值點的優(yōu)化機制。
它主要針對黑盒函數(shù)诵盼,比如系統(tǒng)的性能如準(zhǔn)確率惠豺、召回率、F值等都可以看做目標(biāo)函數(shù)风宁。它的本質(zhì)其實是一種回歸模型洁墙,即利用回歸模型預(yù)測的函數(shù)值來選擇下一個搜索點。
貝葉斯優(yōu)化有兩個主要的要素:目標(biāo)函數(shù)(objective function)和代理模型(surrogate model)戒财。
未完待續(xù)热监。。固翰。