總結(jié)|公共自行車使用量預(yù)測(cè)

本篇文章主要對(duì)在本次競(jìng)賽中排名靠前的同學(xué)的優(yōu)化方法進(jìn)行總結(jié)壤巷。
東文潘拨,14.835 第47名
冰琪莺掠,14.852 第50名
繼端闲礼,14.871 第57名
可自行點(diǎn)擊上述文章詳細(xì)了解他們的優(yōu)化過(guò)程

一寡具、前言

  • 總的來(lái)說(shuō)秤茅,三位同學(xué)都經(jīng)歷了這三個(gè)步驟數(shù)據(jù)處理,特征處理童叠,調(diào)參框喳,但各步驟內(nèi)所使用詳細(xì)的方法有所不同课幕。
  • 這里我對(duì)三位同學(xué)的優(yōu)化過(guò)程做了思維導(dǎo)圖,幫助大家迅速了解他們的優(yōu)化過(guò)程五垮。

二乍惊、相同點(diǎn)分析

優(yōu)化思路相似
  • 都使用了xgboost,并分三步走:數(shù)據(jù)處理放仗、特征分析與處理润绎、參數(shù)調(diào)整。(ps:東文同學(xué)在得知數(shù)據(jù)清理的很干凈后就不再進(jìn)行數(shù)據(jù)處理)
  • 其中在特征分析中三位同學(xué)都進(jìn)行了變量之間的相關(guān)性分析诞挨。
  • 在參數(shù)調(diào)整的階段莉撇,都有根據(jù)變量的重要程度和相關(guān)度來(lái)進(jìn)行調(diào)整,最終確定最優(yōu)的參數(shù)組合

三惶傻、差異點(diǎn)分析

3.1 不使用工具 VS 使用工具

  • 這里的工具是指gridSearchCV (網(wǎng)格搜索)
  • 在本次競(jìng)賽中棍郎,冰琪和東文都使用了gridSearchCV,而繼端沒(méi)有银室。

這帶來(lái)的差異有
(1)冰琪和東文在前面所進(jìn)行的數(shù)據(jù)處理和特征處理都成了“無(wú)用功”涂佃。最后他們兩個(gè)都發(fā)現(xiàn),不進(jìn)行任何數(shù)據(jù)處理和特征處理的原始數(shù)據(jù)蜈敢,利用gridsearchCV進(jìn)行調(diào)參的結(jié)果最佳辜荠,RMSE值最小。(當(dāng)然抓狭,實(shí)踐出真知伯病,也只有試過(guò)了才知如何達(dá)到最優(yōu),并不是否定冰琪和東文的做法辐宾,只是陳述這一事實(shí))
(2)反觀繼端狱从,他前面的每一步數(shù)據(jù)處理和特征處理都是有用的,數(shù)據(jù)和特征的處理的處理使得損失值從18.847降到了14.32叠纹。



(3)但最終經(jīng)過(guò)調(diào)參后季研,使用網(wǎng)格搜索的冰琪和東文的排名都優(yōu)于不使用的繼端。

3.1.2 使用工具與不使用工具孰優(yōu)孰劣誉察?(gridSearchCV)
使用gridSearchCV
  • 優(yōu)點(diǎn):gridSearchCV將自動(dòng)調(diào)參和交叉驗(yàn)證結(jié)合起來(lái)与涡,只要把參數(shù)輸進(jìn)去,就能給出最優(yōu)化的結(jié)果和參數(shù)持偏。
  • 缺點(diǎn):這個(gè)方法適合于小數(shù)據(jù)集驼卖,一旦數(shù)據(jù)的量級(jí)上去了,很難得出結(jié)果鸿秆。
    (tips:搭配坐標(biāo)下降法調(diào)參可以減少這個(gè)缺點(diǎn)的影響酌畜,后面會(huì)有詳細(xì)論述。)

Q:關(guān)于使用gridSearchCV過(guò)擬合的風(fēng)險(xiǎn)卿叽,我詢問(wèn)了東文桥胞。
東文:gridSearchCV本身就是結(jié)合了交叉驗(yàn)證的恳守,是使用驗(yàn)證集來(lái)計(jì)算最佳分?jǐn)?shù)(最佳分?jǐn)?shù)的評(píng)判標(biāo)準(zhǔn)可以自己設(shè)置),所以過(guò)擬合的風(fēng)險(xiǎn)和平時(shí)自己劃分訓(xùn)練集 贩虾、測(cè)試集是一樣的催烘。

不使用工具
  • 優(yōu)點(diǎn):優(yōu)化的過(guò)程是完整而有條理的,每一步的是基于前一步的分析處理而來(lái)缎罢,更容易把握整個(gè)優(yōu)化過(guò)程(數(shù)據(jù)處理和特征分析處理)
  • 缺點(diǎn):相比使用GridSearchCV而言是耗時(shí)耗力的伊群,需要自己進(jìn)行完善的數(shù)據(jù)處理、和特征分析處理策精。特別是在調(diào)參時(shí)舰始,需要自己對(duì)影響力大的幾個(gè)參數(shù)進(jìn)行排列組合調(diào)參,最后得到這會(huì)占用非常多的時(shí)間和運(yùn)行內(nèi)存蛮寂。

3.2 坐標(biāo)下降調(diào)參vs遍歷所有參數(shù)組合調(diào)參

東文和冰琪的選擇:
使用一個(gè)快速調(diào)優(yōu)的方法——坐標(biāo)下降蔽午。
拿當(dāng)前對(duì)模型影響最大的參數(shù)調(diào)優(yōu)易茬,直到最優(yōu)化酬蹋;再拿下一個(gè)影響最大的參數(shù)調(diào)優(yōu),如此下去抽莱,直到所有的參數(shù)調(diào)整完畢范抓。

  • 優(yōu)點(diǎn):省時(shí)省力、占用運(yùn)行內(nèi)存少
  • 缺點(diǎn):可能會(huì)調(diào)到局部最優(yōu)而不是全局最優(yōu)

繼端的選擇:
固定樹(shù)的不同深度食铐,同時(shí)對(duì)其他參數(shù)一起調(diào)整匕垫,遍歷所有參數(shù)組合,返回?fù)p失值最小的參數(shù)參合虐呻,即最優(yōu)參數(shù)組合象泵。

  • 優(yōu)點(diǎn):有可能調(diào)到全局最優(yōu)(我認(rèn)為繼端還能繼續(xù)優(yōu)化,得到更好的成績(jī))
  • 缺點(diǎn):復(fù)雜度高斟叼,占用運(yùn)行內(nèi)存多偶惠,且耗時(shí)耗力

四、總結(jié)

首先朗涩,三位同學(xué)優(yōu)化的結(jié)果是很棒的忽孽。
其次,我認(rèn)為他們使用的方法可以互相結(jié)合谢床。

具體來(lái)說(shuō):

東文和冰琪可以改進(jìn)的地方有:
  • 在數(shù)據(jù)處理的時(shí)候兄一,選擇刪去重復(fù)值。(繼端驗(yàn)證了這一步能夠使得RMSE進(jìn)一步下降)
  • 在特征分析的時(shí)候识腿,在相關(guān)性分析的基礎(chǔ)上出革,應(yīng)該增加對(duì)各特征的重要性進(jìn)行分析,再對(duì)重要的渡讼、相關(guān)性高的特征單個(gè)拎出來(lái)分析(如繼端就進(jìn)行了時(shí)間特征分析骂束、溫度特征分析费薄、風(fēng)速特征分析),這會(huì)對(duì)后續(xù)的調(diào)參有非常大的參考幫助栖雾。
  • 要進(jìn)行健壯性分析楞抡、異常處理。這里東文和冰琪都沒(méi)有考慮到析藕,然而這是一個(gè)重要的點(diǎn)召廷,這一步同樣能使得RMSE下降。
繼端可以改進(jìn)的地方有:
  • 在數(shù)據(jù)處理账胧,可以對(duì)離群點(diǎn)進(jìn)行分析和處理竞慢,刪除離群點(diǎn),可能對(duì)于模型的優(yōu)化有益治泥。
  • 可以試著結(jié)合gridSearchCV筹煮,幫助節(jié)省前面大量的調(diào)參工作,達(dá)到局部最優(yōu)后居夹,再繼續(xù)用你原有的方法進(jìn)一步調(diào)參败潦,努力靠近全局最優(yōu),最終得到最優(yōu)參數(shù)組合准脂。

以上都是我個(gè)人的拙見(jiàn)劫扒,僅供參考,希望對(duì)大家有幫助~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末狸膏,一起剝皮案震驚了整個(gè)濱河市沟饥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌湾戳,老刑警劉巖贤旷,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異砾脑,居然都是意外死亡幼驶,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門拦止,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)县遣,“玉大人,你說(shuō)我怎么就攤上這事汹族∠羟螅” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵顶瞒,是天一觀的道長(zhǎng)夸政。 經(jīng)常有香客問(wèn)我,道長(zhǎng)榴徐,這世上最難降的妖魔是什么守问? 我笑而不...
    開(kāi)封第一講書人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任匀归,我火速辦了婚禮,結(jié)果婚禮上耗帕,老公的妹妹穿的比我還像新娘穆端。我一直安慰自己,他們只是感情好仿便,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布体啰。 她就那樣靜靜地躺著,像睡著了一般嗽仪。 火紅的嫁衣襯著肌膚如雪荒勇。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 49,166評(píng)論 1 284
  • 那天闻坚,我揣著相機(jī)與錄音沽翔,去河邊找鬼。 笑死窿凤,一個(gè)胖子當(dāng)著我的面吹牛仅偎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播卷玉,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼哨颂,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了相种?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤品姓,失蹤者是張志新(化名)和其女友劉穎寝并,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體腹备,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡衬潦,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了植酥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镀岛。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖友驮,靈堂內(nèi)的尸體忽然破棺而出漂羊,到底是詐尸還是另有隱情,我是刑警寧澤卸留,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布走越,位于F島的核電站,受9級(jí)特大地震影響耻瑟,放射性物質(zhì)發(fā)生泄漏旨指。R本人自食惡果不足惜赏酥,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望谆构。 院中可真熱鬧裸扶,春花似錦、人聲如沸搬素。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蔗蹋。三九已至何荚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間猪杭,已是汗流浹背餐塘。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留皂吮,地道東北人戒傻。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蜂筹,于是被迫代替她去往敵國(guó)和親需纳。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344