完整項(xiàng)目地址:www.kaggle.com/weiyunchen/nypd-mv-collisions
序言
北京第三區(qū)交通委提醒您:道路千萬(wàn)條敲茄,安全第一條藐唠。行車(chē)不規(guī)范誉碴,親人兩行淚厦幅。
加載數(shù)據(jù)
相信通過(guò)序言,大家已經(jīng)基本了解了這是一個(gè)怎樣的數(shù)據(jù)集施流,它統(tǒng)計(jì)了從2012年到2019年在大城市紐約發(fā)生的1454053起交通事故响疚。
缺失值處理
可以看到,缺失值主要分布在一些附加信息的特征中瞪醋,尤其是第三四五輛機(jī)動(dòng)車(chē)的信息幾乎全部為缺失值忿晕,這說(shuō)明大型多輛機(jī)動(dòng)車(chē)的交通事故占極少數(shù)
由于這是一個(gè)交通事故的統(tǒng)計(jì)數(shù)據(jù),因此若記錄的某些數(shù)據(jù)沒(méi)有對(duì)事故損失的具體描述趟章,既幾項(xiàng)關(guān)鍵信息數(shù)據(jù)的記錄均為缺失值杏糙,那么這些數(shù)據(jù)就是沒(méi)有意義的數(shù)據(jù),這些關(guān)鍵信息的缺失不僅給計(jì)算造成了負(fù)擔(dān)蚓土,也會(huì)影響我們后續(xù)的分析宏侍。
該數(shù)據(jù)集的關(guān)鍵信息即為傷亡信息的數(shù)據(jù),我們按照這些條件進(jìn)行查找看是否存在無(wú)意義的數(shù)據(jù)或統(tǒng)計(jì)錯(cuò)誤的數(shù)據(jù)蜀漆。
根據(jù)上面的查詢(xún)結(jié)果谅河,可以看出雖然某些傷亡人數(shù)信息存在缺失值,但并不存在這些信息均為缺失值的數(shù)據(jù)确丢,也就是說(shuō)某些信息記錄的某類(lèi)傷亡人數(shù)為缺失值值等價(jià)與該事故造成的該類(lèi)傷亡人數(shù)為0绷耍,說(shuō)明該數(shù)據(jù)集中的每條數(shù)據(jù)對(duì)事故的關(guān)鍵信息都是存在一定記錄的,我們只需要小改就可以鲜侥。
我們注意到該數(shù)據(jù)集對(duì)每起事故的肇事車(chē)輛預(yù)設(shè)的最大登記數(shù)為5,但大部分肇事車(chē)輛數(shù)都達(dá)不到5,因此對(duì)肇事車(chē)輛的信息記錄的位置會(huì)存在很多缺失值褂始,接下來(lái)我們查看是否存在跳躍記錄的情況,既不按照表格順序填寫(xiě)肇事車(chē)輛信息
上面的結(jié)果可以看出描函,在第三輛肇事車(chē)輛數(shù)據(jù)為空值的情況下崎苗,第四輛和第五輛也均為空值,這說(shuō)明該數(shù)據(jù)集對(duì)肇事車(chē)輛的統(tǒng)計(jì)確實(shí)是按照表格順序填寫(xiě)的舀寓,因此我們可以根據(jù)第三輛肇事車(chē)輛數(shù)據(jù)是否為空值判斷肇事車(chē)輛是否不少于三輛
通過(guò)以上分析胆数,我們得出結(jié)論,除了死傷人數(shù)及經(jīng)緯度信息外互墓,其他列的空值都是文字信息必尼,且基本都是按照正常的邏輯填寫(xiě),對(duì)我們稍后的分析不會(huì)產(chǎn)生影響篡撵,因此為了盡可能還原數(shù)據(jù)的特征判莉,我們暫時(shí)不做處理。
對(duì)于死傷人數(shù)及經(jīng)緯度信息的缺失值育谬。我們將死傷人數(shù)的空值替換為0
,經(jīng)緯度的空值替換為U
券盅。
處理完傷亡人數(shù)的缺失值以后,我們可以額外補(bǔ)充一列死傷人數(shù)之和的特征斑司。
地理因素分析
接下來(lái)我們對(duì)事故發(fā)生的地理位置進(jìn)行分析渗饮,由于該數(shù)據(jù)集結(jié)構(gòu)清晰信息簡(jiǎn)煉但汞,所以我們只需要將該數(shù)據(jù)集中的重要信息表現(xiàn)在地圖上即可。
我們首先利用
LOCATION
變量對(duì)每個(gè)地點(diǎn)的事故發(fā)生次數(shù)進(jìn)行統(tǒng)計(jì)生成了新數(shù)據(jù)集count_loc
互站,然后在原來(lái)的數(shù)據(jù)集上對(duì)特征進(jìn)行了篩選重新組成了一個(gè)新的數(shù)據(jù)集new_loc私蕾,該數(shù)據(jù)集是對(duì)每一個(gè)事故地點(diǎn)的地理特征信息的記錄。
接下來(lái)我們將這兩個(gè)數(shù)據(jù)集合并成一個(gè)新數(shù)據(jù)集the_loc
胡桃,該數(shù)據(jù)集既包含事故發(fā)生地點(diǎn)的地理特征信息踩叭,又標(biāo)明了每個(gè)地點(diǎn)的事故發(fā)生次數(shù)。
可以看到該數(shù)據(jù)集總體的結(jié)構(gòu)非常清晰翠胰。
由于原始數(shù)據(jù)是對(duì)12年到19年的所有交通事故的記錄容贝,共145萬(wàn)起交通事故,因此若將這些事故地點(diǎn)全部標(biāo)記到地圖上是不美觀且沒(méi)有意義的之景,數(shù)據(jù)分析的最終目的是尋求規(guī)律斤富,因此我們僅將事故最高發(fā)的2000個(gè)地點(diǎn)在地圖上標(biāo)記并打上標(biāo)簽,其中標(biāo)簽含義如下:
- Lat : 緯度
- Lng : 經(jīng)度
- ZIP CODE : 郵編
- ON STREET NAME : 附近街道名稱(chēng)
- BOROUGH : 行政區(qū)
-
Incidents : 事故發(fā)生次數(shù)
基于時(shí)間序列的綜合分析
我們猜想锻狗,交通事故的發(fā)生頻率與時(shí)間满力、人口甚至人文風(fēng)氣等因素都存在很大的關(guān)系,設(shè)想一下:在上下班時(shí)間轻纪,一個(gè)路口擠滿(mǎn)了人油额,在陰天雨季,道路能見(jiàn)度低刻帚,路面濕滑潦嘶,此時(shí),一個(gè)熟悉的聲音在耳畔響起
北京第三區(qū)交通委再次提醒您:道路千萬(wàn)條崇众,安全第一條掂僵。行車(chē)不規(guī)范,親人兩行淚
通過(guò)流浪地球校摩,我們感受到了北京第三交通委的熱切關(guān)懷看峻,通過(guò)不厭其煩的提醒來(lái)喚起大家對(duì)交通安全的重視阶淘,這也從側(cè)面反映了交通事故和當(dāng)?shù)氐沫h(huán)境存在很大的聯(lián)系衙吩,接下來(lái)我們先對(duì)紐約的五個(gè)行政區(qū)進(jìn)行對(duì)比分析
行政區(qū)-時(shí)間序列分析
- 首先,我們利用
BOROUGH
和date
這兩個(gè)變量交叉組合對(duì)原來(lái)的數(shù)據(jù)集重新排序分類(lèi)溪窒,并統(tǒng)計(jì)每一類(lèi)的傷亡人數(shù)NUMBER OF PERSONS INFLUENCED
之和坤塞,得到一個(gè)新的數(shù)據(jù)集time_place_person
- 然后,通過(guò)
BOROUGH
變量的五種不同的取值將一個(gè)數(shù)據(jù)集切分成五個(gè)平行的數(shù)據(jù)集df1
到df5
- 由于這五個(gè)平行數(shù)據(jù)集擁有相同的時(shí)間序列標(biāo)簽
date
澈蚌,因此我們利用date
作為母結(jié)點(diǎn)摹芙,將五個(gè)平行的數(shù)據(jù)集重新合并成一個(gè)數(shù)據(jù)集df
- 五個(gè)平行數(shù)據(jù)集合并后,各自的維度
value
組成了五個(gè)平行的value_行政區(qū)
宛瞄,也就相當(dāng)于我們將原始數(shù)據(jù)集中一維的value
切分為了五個(gè)平行的維度value_行政區(qū)
并重新映射到時(shí)間序列里
可以看出浮禾,交通事故的發(fā)生具有一定的季節(jié)周期性和地域性
月、日、時(shí)-時(shí)間序列分析
將上面的數(shù)據(jù)集更換為month_0和hour_0盈电,我們便得到了小時(shí)和月份的時(shí)序圖
時(shí)間序列分解圖
下面我們將時(shí)間序列分解為趨勢(shì)蝴簇,季節(jié)和殘差分量
ACF和PACF自相關(guān)圖
可以看到,自相關(guān)和偏自相關(guān)都是12階拖尾匆帚,說(shuō)明交通事故的發(fā)生頻率具有季節(jié)變動(dòng)特征熬词,可以用ARMA模型進(jìn)行分析