模型建立:
bagging方法--隨機森林:太耗時間了骤公。
boosting方法:
lightGBM模型:
https://blog.csdn.net/wuzhongqiang/article/details/105350579
Xgboost模型:
https://blog.csdn.net/wuzhongqiang/article/details/104854890
?集成模型集成方法(ensemble method):通過組合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)绣溜,通過集成方法,可以將多個弱學(xué)習(xí)器組合成一個強分類器柱搜,因此集成學(xué)習(xí)的泛化能力一般比單一分類器要好跪帝。集成方法主要包括Bagging和Boosting活逆,Bagging和Boosting都是將已有的分類或回歸算法通過一定方式組合起來审编,形成一個更加強大的分類猜煮。兩種方法都是把若干個分類器整合為一個分類器的方法次员,只是整合的方式不一樣,最終得到不一樣的效果王带。常見的基于Baggin思想的集成模型有:隨機森林淑蔚、基于Boosting思想的集成模型有:Adaboost、GBDT愕撰、XgBoost刹衫、LightGBM等慰枕。
Baggin和Boosting的區(qū)別總結(jié)如下:
樣本選擇上:?Bagging方法的訓(xùn)練集是從原始集中有放回的選取讨便,所以從原始集中選出的各輪訓(xùn)練集之間是獨立的;而Boosting方法需要每一輪的訓(xùn)練集不變景描,只是訓(xùn)練集中每個樣本在分類器中的權(quán)重發(fā)生變化囱桨。而權(quán)值是根據(jù)上一輪的分類結(jié)果進行調(diào)整
樣例權(quán)重上:?Bagging方法使用均勻取樣仓犬,所以每個樣本的權(quán)重相等;而Boosting方法根據(jù)錯誤率不斷調(diào)整樣本的權(quán)值舍肠,錯誤率越大則權(quán)重越大
預(yù)測函數(shù)上:?Bagging方法中所有預(yù)測函數(shù)的權(quán)重相等婶肩;而Boosting方法中每個弱分類器都有相應(yīng)的權(quán)重,對于分類誤差小的分類器會有更大的權(quán)重
并行計算上:?Bagging方法中各個預(yù)測函數(shù)可以并行生成貌夕;而Boosting方法各個預(yù)測函數(shù)只能順序生成律歼,因為后一個模型參數(shù)需要前一輪模型的結(jié)果。
摘自:https://github.com/datawhalechina/team-learning-data-mining/blob/master/HeartbeatClassification/Task4%20%E6%A8%A1%E5%9E%8B%E8%B0%83%E5%8F%82.md
模型調(diào)參:太耗時間了啡专,效果還不一定好
網(wǎng)格調(diào)參
sklearn 提供GridSearchCV用于進行網(wǎng)格搜索险毁,只需要把模型的參數(shù)輸進去,就能給出最優(yōu)化的結(jié)果和參數(shù)们童。相比起貪心調(diào)參畔况,網(wǎng)格搜索的結(jié)果會更優(yōu),但是網(wǎng)格搜索只適合于小數(shù)據(jù)集慧库,一旦數(shù)據(jù)的量級上去了跷跪,很難得出結(jié)果。
貪心調(diào)參
先使用當前對模型影響最大的參數(shù)進行調(diào)優(yōu)齐板,達到當前參數(shù)下的模型最優(yōu)化吵瞻,再使用對模型影響次之的參數(shù)進行調(diào)優(yōu)葛菇,如此下去,直到所有的參數(shù)調(diào)整完畢橡羞。這個方法的缺點就是可能會調(diào)到局部最優(yōu)而不是全局最優(yōu)眯停,但是只需要一步一步的進行參數(shù)最優(yōu)化調(diào)試即可,容易理解卿泽。需要按步驟進行調(diào)試
貝葉斯調(diào)參
貝葉斯調(diào)參的主要思想是:給定優(yōu)化的目標函數(shù)(廣義的函數(shù)莺债,只需指定輸入和輸出即可,無需知道內(nèi)部結(jié)構(gòu)以及數(shù)學(xué)性質(zhì))签夭,通過不斷地添加樣本點來更新目標函數(shù)的后驗分布(高斯過程,直到后驗分布基本貼合于真實分布)齐邦。簡單的說,就是考慮了上一次參數(shù)的信息第租,從而更好的調(diào)整當前的參數(shù)措拇。
貝葉斯調(diào)參的步驟如下:
定義優(yōu)化函數(shù)(rf_cv)
建立模型
定義待優(yōu)化的參數(shù)
得到優(yōu)化結(jié)果,并返回要優(yōu)化的分數(shù)指標
frombayes_optimportBayesianOptimization