本篇文章主要對(duì)在本次競(jìng)賽中排名靠前的同學(xué)的優(yōu)化方法進(jìn)行總結(jié)壤巷。
東文潘拨,14.835 第47名
冰琪莺掠,14.852 第50名
繼端闲礼,14.871 第57名
可自行點(diǎn)擊上述文章詳細(xì)了解他們的優(yōu)化過(guò)程
一寡具、前言
- 總的來(lái)說(shuō)秤茅,三位同學(xué)都經(jīng)歷了這三個(gè)步驟數(shù)據(jù)處理,特征處理童叠,調(diào)參框喳,但各步驟內(nèi)所使用詳細(xì)的方法有所不同课幕。
- 這里我對(duì)三位同學(xué)的優(yōu)化過(guò)程做了思維導(dǎo)圖,幫助大家迅速了解他們的優(yōu)化過(guò)程五垮。
二乍惊、相同點(diǎn)分析
優(yōu)化思路相似
- 都使用了xgboost,并分三步走:數(shù)據(jù)處理放仗、特征分析與處理润绎、參數(shù)調(diào)整。(ps:東文同學(xué)在得知數(shù)據(jù)清理的很干凈后就不再進(jìn)行數(shù)據(jù)處理)
- 其中在特征分析中三位同學(xué)都進(jìn)行了變量之間的相關(guān)性分析诞挨。
- 在參數(shù)調(diào)整的階段莉撇,都有根據(jù)變量的重要程度和相關(guān)度來(lái)進(jìn)行調(diào)整,最終確定最優(yōu)的參數(shù)組合
三惶傻、差異點(diǎn)分析
3.1 不使用工具 VS 使用工具
- 這里的工具是指gridSearchCV (網(wǎng)格搜索)
- 在本次競(jìng)賽中棍郎,冰琪和東文都使用了gridSearchCV,而繼端沒(méi)有银室。
這帶來(lái)的差異有
(1)冰琪和東文在前面所進(jìn)行的數(shù)據(jù)處理和特征處理都成了“無(wú)用功”涂佃。最后他們兩個(gè)都發(fā)現(xiàn),不進(jìn)行任何數(shù)據(jù)處理和特征處理的原始數(shù)據(jù)蜈敢,利用gridsearchCV進(jìn)行調(diào)參的結(jié)果最佳辜荠,RMSE值最小。(當(dāng)然抓狭,實(shí)踐出真知伯病,也只有試過(guò)了才知如何達(dá)到最優(yōu),并不是否定冰琪和東文的做法辐宾,只是陳述這一事實(shí))
(2)反觀繼端狱从,他前面的每一步數(shù)據(jù)處理和特征處理都是有用的,數(shù)據(jù)和特征的處理的處理使得損失值從18.847降到了14.32叠纹。
(3)但最終經(jīng)過(guò)調(diào)參后季研,使用網(wǎng)格搜索的冰琪和東文的排名都優(yōu)于不使用的繼端。
3.1.2 使用工具與不使用工具孰優(yōu)孰劣誉察?(gridSearchCV)
使用gridSearchCV
- 優(yōu)點(diǎn):gridSearchCV將自動(dòng)調(diào)參和交叉驗(yàn)證結(jié)合起來(lái)与涡,只要把參數(shù)輸進(jìn)去,就能給出最優(yōu)化的結(jié)果和參數(shù)持偏。
-
缺點(diǎn):這個(gè)方法適合于小數(shù)據(jù)集驼卖,一旦數(shù)據(jù)的量級(jí)上去了,很難得出結(jié)果鸿秆。
(tips:搭配坐標(biāo)下降法調(diào)參可以減少這個(gè)缺點(diǎn)的影響酌畜,后面會(huì)有詳細(xì)論述。)
Q:關(guān)于使用gridSearchCV過(guò)擬合的風(fēng)險(xiǎn)卿叽,我詢問(wèn)了東文桥胞。
東文:gridSearchCV本身就是結(jié)合了交叉驗(yàn)證的恳守,是使用驗(yàn)證集來(lái)計(jì)算最佳分?jǐn)?shù)(最佳分?jǐn)?shù)的評(píng)判標(biāo)準(zhǔn)可以自己設(shè)置),所以過(guò)擬合的風(fēng)險(xiǎn)和平時(shí)自己劃分訓(xùn)練集 贩虾、測(cè)試集是一樣的催烘。
不使用工具
- 優(yōu)點(diǎn):優(yōu)化的過(guò)程是完整而有條理的,每一步的是基于前一步的分析處理而來(lái)缎罢,更容易把握整個(gè)優(yōu)化過(guò)程(數(shù)據(jù)處理和特征分析處理)
- 缺點(diǎn):相比使用GridSearchCV而言是耗時(shí)耗力的伊群,需要自己進(jìn)行完善的數(shù)據(jù)處理、和特征分析處理策精。特別是在調(diào)參時(shí)舰始,需要自己對(duì)影響力大的幾個(gè)參數(shù)進(jìn)行排列組合調(diào)參,最后得到這會(huì)占用非常多的時(shí)間和運(yùn)行內(nèi)存蛮寂。
3.2 坐標(biāo)下降調(diào)參vs遍歷所有參數(shù)組合調(diào)參
東文和冰琪的選擇:
使用一個(gè)快速調(diào)優(yōu)的方法——坐標(biāo)下降蔽午。
拿當(dāng)前對(duì)模型影響最大的參數(shù)調(diào)優(yōu)易茬,直到最優(yōu)化酬蹋;再拿下一個(gè)影響最大的參數(shù)調(diào)優(yōu),如此下去抽莱,直到所有的參數(shù)調(diào)整完畢范抓。
- 優(yōu)點(diǎn):省時(shí)省力、占用運(yùn)行內(nèi)存少
- 缺點(diǎn):可能會(huì)調(diào)到局部最優(yōu)而不是全局最優(yōu)
繼端的選擇:
固定樹(shù)的不同深度食铐,同時(shí)對(duì)其他參數(shù)一起調(diào)整匕垫,遍歷所有參數(shù)組合,返回?fù)p失值最小的參數(shù)參合虐呻,即最優(yōu)參數(shù)組合象泵。
- 優(yōu)點(diǎn):有可能調(diào)到全局最優(yōu)(我認(rèn)為繼端還能繼續(xù)優(yōu)化,得到更好的成績(jī))
- 缺點(diǎn):復(fù)雜度高斟叼,占用運(yùn)行內(nèi)存多偶惠,且耗時(shí)耗力
四、總結(jié)
首先朗涩,三位同學(xué)優(yōu)化的結(jié)果是很棒的忽孽。
其次,我認(rèn)為他們使用的方法可以互相結(jié)合谢床。
具體來(lái)說(shuō):
東文和冰琪可以改進(jìn)的地方有:
- 在數(shù)據(jù)處理的時(shí)候兄一,選擇刪去重復(fù)值。(繼端驗(yàn)證了這一步能夠使得RMSE進(jìn)一步下降)
- 在特征分析的時(shí)候识腿,在相關(guān)性分析的基礎(chǔ)上出革,應(yīng)該增加對(duì)各特征的重要性進(jìn)行分析,再對(duì)重要的渡讼、相關(guān)性高的特征單個(gè)拎出來(lái)分析(如繼端就進(jìn)行了時(shí)間特征分析骂束、溫度特征分析费薄、風(fēng)速特征分析),這會(huì)對(duì)后續(xù)的調(diào)參有非常大的參考幫助栖雾。
- 要進(jìn)行健壯性分析楞抡、異常處理。這里東文和冰琪都沒(méi)有考慮到析藕,然而這是一個(gè)重要的點(diǎn)召廷,這一步同樣能使得RMSE下降。
繼端可以改進(jìn)的地方有:
- 在數(shù)據(jù)處理账胧,可以對(duì)離群點(diǎn)進(jìn)行分析和處理竞慢,刪除離群點(diǎn),可能對(duì)于模型的優(yōu)化有益治泥。
- 可以試著結(jié)合gridSearchCV筹煮,幫助節(jié)省前面大量的調(diào)參工作,達(dá)到局部最優(yōu)后居夹,再繼續(xù)用你原有的方法進(jìn)一步調(diào)參败潦,努力靠近全局最優(yōu),最終得到最優(yōu)參數(shù)組合准脂。
以上都是我個(gè)人的拙見(jiàn)劫扒,僅供參考,希望對(duì)大家有幫助~