天池第一戰(zhàn)--乘用車銷量預(yù)測16/2500 心得分享
最近打完比賽以后人断,沉迷于抖音不能自拔晦闰。作為業(yè)余程序員里面的一股清流,不能再這么頹廢了3芳椤3菟搿傲隶!所以,趁著有空窃页,趕快把比賽回憶一下吧跺株。
Timeline:
初賽:2018.1.15-2.26
復(fù)賽:2018.2.27-3.15
復(fù)賽最后換榜那三天,竟然渾渾噩噩的反而淡定得很腮出。帖鸦。。
初賽:各種模型各種試,從基本的線性回歸胚嘲、svm作儿、mlp、樹模型馋劈、LGB攻锰、XGB都試過了晾嘶。后來發(fā)現(xiàn),不管打什么比賽娶吞,首先看評分函數(shù)是什么垒迂。從那里你可以獲得不少小trick。因?yàn)樘卣鞴こ虥]什么特色妒蛇,所以沒啥好說的机断。沒有嘗試lstm是個(gè)小遺憾,接下來幾天可以試試绣夺。吏奸。不過先得把機(jī)器學(xué)習(xí)理論看好了,比如我們這個(gè)比賽陶耍,損失函數(shù)是log相關(guān)奋蔚,我們可以將label先log再做。烈钞。泊碑。
初賽6/2500
復(fù)賽:前期一直沒有進(jìn)展,知道后來遇到了dong_dong_shen學(xué)長毯欣,教了我一個(gè)叫做時(shí)間劃窗的東西馒过,就是利用純粹的時(shí)間銷量特征去做。網(wǎng)上基本沒有人對劃窗做一個(gè)好好的解釋酗钞,可能都是大家偷著藏著的基礎(chǔ)殺招吧沉桌。我認(rèn)為劃窗有兩個(gè)作用:充分發(fā)揮時(shí)序和銷量的關(guān)系,不考慮其他因素的影響算吩,相當(dāng)于挖掘銷量和時(shí)間的關(guān)系的一個(gè)函數(shù)。另一個(gè)作用就是增大訓(xùn)練集佃扼,排除噪聲(因?yàn)橹挥玫搅虽N量統(tǒng)計(jì)偎巢,題目中其所有特征全部刪除)。劃窗本身可以達(dá)到一個(gè)不錯(cuò)的效果兼耀,但是它不夠好压昼。就本身而言,劃窗的滑動窗口你可以自己定義瘤运,12個(gè)月窍霞,6個(gè)月,1個(gè)月拯坟,10天但金,7天,根據(jù)不同情況需要你自己制定郁季。因?yàn)槲覀兪穷A(yù)測一個(gè)月的總銷量冷溃,所以我的劃窗就是12個(gè)月和半年(我怕單獨(dú)12個(gè)月劃窗不夠好钱磅,所以我又寫了個(gè)6個(gè)月的,事實(shí)證明兩個(gè)劃窗在最后結(jié)果的平均數(shù)上基本一致似枕,至于細(xì)節(jié)預(yù)測的差異我沒仔細(xì)看)盖淡。單獨(dú)從劃窗的角度去提升,除了用多個(gè)劃窗凿歼,最后加權(quán)融合褪迟,還有一個(gè)就是需要你將單條繼續(xù)細(xì)分。比如我這個(gè)比賽答憔,我剛開始是按車型分味赃,統(tǒng)計(jì)銷量的時(shí)候直接把同車型不同配置的車的銷量都合并了。而實(shí)際上攀唯,細(xì)分配置用劃窗洁桌,效果更好。能替代成績從0.95提升到了0.92侯嘀。我們還嘗試把在純劃窗里面加其他構(gòu)造的特征另凌,效果基本沒有提升,還可能下降戒幔。吠谢。。
對了對了诗茎,添加特征的時(shí)候工坊,有一種特征不能要哦。他們叫穿越特征敢订,就是你吧未來時(shí)間才有的特征的信息加到你構(gòu)造的新的特征里面了王污。比如,你想用2017年數(shù)據(jù)做驗(yàn)證集楚午,用2012-2016年數(shù)據(jù)做訓(xùn)練集昭齐。而你,好巧不巧的在特征里面加了一列包含2017年潛在信息(比如你取了2012-2017年的平均數(shù))矾柜,這樣子可能的后果就是你的線下分?jǐn)?shù)很好阱驾,但是線上超級差。怪蔑。里覆。
好了,我們最后融合的模型是:粗粒度劃窗(沒分配置)+細(xì)粒度劃窗(分了配置)+統(tǒng)計(jì)模型+arima 這四個(gè)模型缆瓣。
總結(jié)下來:時(shí)序問題用時(shí)序特征會有一個(gè)比較靠譜的結(jié)果喧枷,然而想要更好,需要結(jié)合基礎(chǔ)特征,用機(jī)器學(xué)習(xí)模型去做割去。本次比賽第一的團(tuán)隊(duì)窟却,我們學(xué)院的,感覺好像是小白一枚呻逆,然而就是用了基礎(chǔ)特征+時(shí)間特征的思想夸赫。
他們把題目給的特征處理好的基礎(chǔ)上,又加了四列特征咖城,就是我說的時(shí)間銷量特征茬腿。然后訓(xùn)練,所以說宜雀,以后做時(shí)序比賽:基礎(chǔ)特征+時(shí)間特征切平,會有一個(gè)不錯(cuò)的結(jié)果。