項(xiàng)目鏈接:Bike Sharing Demand | Kaggle
思路:1.認(rèn)識(shí)數(shù)據(jù)
?????????? 2.特征工程
?????????? 3.建模并預(yù)測(cè)
首先,是一個(gè)關(guān)于自行車租賃預(yù)測(cè)的題目荐虐,Kaggle提供的訓(xùn)練數(shù)據(jù)是一個(gè)月前19點(diǎn)的使用情況,需要預(yù)測(cè)20天之后的使用情況丸凭,數(shù)據(jù)從Kaggle中下載福扬。
數(shù)據(jù)共有12列,12個(gè)屬性的意義如下:
讀入訓(xùn)練數(shù)據(jù)
12列數(shù)據(jù)惜犀,并且數(shù)據(jù)沒有缺失值铛碑。
測(cè)試數(shù)據(jù)一共有9列,沒有缺失值向拆。
為了方便后面做特征工程亚茬,將訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)拼接起來。
數(shù)據(jù)中給出的datetime是例如2011-01-01 00:00:00這樣的格式的浓恳,為了分析數(shù)據(jù)刹缝,需要將時(shí)間分割出月、日颈将、幾時(shí)
根據(jù)小時(shí)用量可以將時(shí)段分為5個(gè):0~7梢夯,7~10,10~15晴圾,15~20颂砸,20~24
按季節(jié)查看騎行情況
每個(gè)季節(jié)每天的使用情況
天氣與騎行情況
隨著天氣惡劣,自行車用量也在逐漸減少,天氣是一個(gè)很好的特征。
確實(shí)40度的使用情況,41度那么熱凳鬓,可是用量卻非常大喷屋,可能數(shù)據(jù)有些異常
各特征相關(guān)系數(shù)
由上圖看出,注冊(cè)用戶和非注冊(cè)用戶的自行車使用量相差挺多的,非注冊(cè)用戶的相關(guān)系數(shù)是0
.69,而注冊(cè)用戶的相關(guān)系數(shù)為0.97
剔除離群點(diǎn)
這是一個(gè)回歸問題,如果目標(biāo)值服從正態(tài)分布比較好金抡,原數(shù)據(jù)不符合正態(tài)分布,需要進(jìn)行處理
雖然不是標(biāo)準(zhǔn)的正態(tài)分布腌且,但比原來的數(shù)據(jù)看上去好一些梗肝。