使用 Python 和 Pandas 分析犯罪記錄開放數(shù)據(jù)

從開放數(shù)據(jù)中,你可以了解一個(gè)城市或社區(qū)是否安全鹃唯,并合理避險(xiǎn)爱榕。

本文借鑒 知乎@王樹義 的分析思路,使用 Python 和數(shù)據(jù)分析包 Pandas 對(duì)該數(shù)據(jù)集進(jìn)行分析和可視化坡慌。

原網(wǎng)址為:https://zhuanlan.zhihu.com/p/58314015?utm_source=qq&utm_medium=social

首先黔酥,訪問(wèn) Denton 開放數(shù)據(jù)主頁(yè),地址是 http://data.cityofdenton.com/ 洪橘。搜索 crime 獲取數(shù)據(jù)跪者。

讀入 Pandas 庫(kù),并使用 Pandas 方法讀入 CSV 文件熄求。文件保存在 df 中渣玲,并確認(rèn)文件已經(jīng)成功讀入。

import pandas as pd
df = pd.read_csv('crime_data_20190322.csv')
df.head()
結(jié)果圖

下面來(lái)著重分析一下弟晚,都有哪些犯罪類型忘衍,每種類型下,又有多少記錄卿城。

這里我們使用的是 Pandas 中的 value_counts 函數(shù)枚钓。它可以幫助我們自動(dòng)統(tǒng)計(jì)某一列中不同類別出現(xiàn)的次數(shù),而且還自動(dòng)進(jìn)行排序瑟押。為了顯示的方便搀捷,我們只要求展示前 10 項(xiàng)內(nèi)容。

value_counts() 是一種查看表格某列中有多少個(gè)不同值的快捷方法多望,并計(jì)算每個(gè)不同值有在該列中有多少重復(fù)值嫩舟。
value_counts() 是 Series 擁有的方法,一般在 DataFrame 中使用時(shí)怀偷,需要指定對(duì)哪一列或行使用至壤。

iloc 方法是基于索引位來(lái)選取數(shù)據(jù)集, 例如 0:4就是選取 0枢纠,1,2,3 這四行晋渺,需要注意的是這里是前閉后開集合镰绎。

df.crime.value_counts().iloc[:10]
結(jié)果圖

可以看到位于前幾位的犯罪類型分別為:輕微人身攻擊,所有其他盜竊案木西,財(cái)產(chǎn)的破壞畴栖,醉酒,商店行竊八千,汽車失竊吗讶,使用毒品,詐騙恋捆,入室盜竊照皆。

為了更直觀查看數(shù)據(jù)統(tǒng)計(jì)結(jié)果,我們調(diào)用 Pandas 內(nèi)置的繪圖函數(shù) plot 沸停,并且指定繪圖類型為“橫向條狀圖”(barh)膜毁。

import matplotlib as plt
df.crime.value_counts().iloc[:10].sort_values().plot(kind='barh')

結(jié)果為:

結(jié)果圖

下面,我們著重了解某一種犯罪的情況愤钾。因?yàn)榉缸镱愋臀寤ò碎T瘟滨,所以我們從中選擇一種嚴(yán)重的暴力犯罪——搶劫(Robbery)。

這里能颁,為了后續(xù)分析的便利杂瘸。我們首先把搶劫類型的犯罪單獨(dú)提煉出來(lái),存儲(chǔ)在 robbery 這樣一個(gè)新的數(shù)據(jù)框里伙菊。同樣只展示前幾種败玉。

pandas.Series.str.contains() 方法可以通過(guò)查詢每行是否包含指定字符串進(jìn)行模糊查詢。

robbery = df[df.crime.str.contains('ROBBERY')]; robbery.head()
結(jié)果圖

我們查看一下“犯罪位置”(locname)類型占业,以及每種類型對(duì)應(yīng)的記錄條目數(shù)绒怨。

這次,我們使用 groupby 函數(shù)谦疾,先把犯罪位置進(jìn)行分類南蹂,然后用 size() 函數(shù)來(lái)查看條目統(tǒng)計(jì)。

這里念恍,我們指定排序?yàn)閺拇蟮叫 ?/p>

groupby('locname').size() 函數(shù)可以按照‘locname’這一列進(jìn)行分組并統(tǒng)計(jì)數(shù)量六剥。

robbery.shape
robbery.groupby('locname').size().sort_values(ascending=False)
結(jié)果圖

當(dāng)然以上代碼可以使用value_counts 方法解決。

robbery.locname.value_counts()

結(jié)果相同峰伙。

根據(jù)結(jié)果顯示疗疟,入室搶劫次數(shù)最多,在學(xué)校瞳氓、公交車上發(fā)生的次數(shù)最少策彤。

下面還是用 plot 函數(shù),把結(jié)果可視化呈現(xiàn)。

robbery.groupby('locname').size().sort_values(ascending=False).head(10).sort_values().plot(kind='barh')

下一步店诗,我們嘗試把分析的粒度做得更加細(xì)致——研究一下裹刮,哪些街區(qū)比較危險(xiǎn)。

地址信息都表示為類似“19XX BRINKER RD”這樣的方式庞瘸。把具體地址的后兩位隱藏捧弃,是為了保護(hù)受害者的隱私。

我們?nèi)绻y(tǒng)計(jì)某一條街道的犯罪數(shù)量擦囊,就需要把前面的數(shù)字忽略违霞,并且按照街道名稱加總。

這個(gè)處理起來(lái)瞬场,并不困難买鸽,只要用正則表達(dá)式即可。

正則表達(dá)式是對(duì)字符串操作的一種邏輯公式泌类,就是用事先定義好的一些特定字符癞谒、及這些特定字符的組合,組成一個(gè)“規(guī)則字符串”刃榨,這個(gè)“規(guī)則字符串”用來(lái)表達(dá)對(duì)字符串的一種過(guò)濾邏輯.

regex = r"\d+XX\s(?P<street>.*)"
subst = "\\g<street>"

這里弹砚,我們用括號(hào)把需要保留的內(nèi)容,賦值為 street 分組枢希。然后替換的時(shí)候桌吃,只保留這個(gè)分組的信息。于是前面的具體地址數(shù)字就忽略了苞轿。

調(diào)用 Pandas 的 str.replace 函數(shù)茅诱,我們可以讓它自動(dòng)將每一個(gè)地址都進(jìn)行解析替換,并且把結(jié)果存入到了一個(gè)新的列名稱搬卒,即 street 瑟俭。

robbery["street"] = robbery.publicadress.str.replace(regex, subst)

可以看到在 DataFrame 的最后一列是簡(jiǎn)化的街道。

依然按照前面的方法契邀,我們分組統(tǒng)計(jì)每一條街道上的犯罪數(shù)量摆寄,并且進(jìn)行排序。

robbery.groupby('street').size().sort_values(ascending=False).head(10)

看來(lái)坯门,大學(xué)西道(W University DR)搶劫頻發(fā)微饥,沒(méi)事兒最好少去瞎轉(zhuǎn)悠。

注意古戴,我們其實(shí)是在分析10年的犯罪信息匯總欠橘。如果更進(jìn)一步,想要利用時(shí)間數(shù)據(jù)现恼,進(jìn)行切分肃续,我們就得把日期信息做一下轉(zhuǎn)換處理黍檩。

我們從 dateutil 里面的 parser 模塊,載入全部?jī)?nèi)容痹升。

from dateutil.parser import *

下面建炫,我們抽取年度信息。因?yàn)槟壳暗娜掌跁r(shí)間列(incidentdatetime)是個(gè)字符串疼蛾,因此我們可以直接用 parse 函數(shù)解析它,并且抽取其中的年份(year)項(xiàng)艺配。

robbery["year"] = robbery.incidentdatetime.apply(lambda x: parse(x).year)

apply 函數(shù)是pandas里面所有函數(shù)中自由度最高的函數(shù)察郁。該函數(shù)如下:

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

該函數(shù)最有用的是第一個(gè)參數(shù),這個(gè)參數(shù)是函數(shù)转唉,相當(dāng)于 C/C++ 的函數(shù)指針皮钠。

這個(gè)函數(shù)需要自己實(shí)現(xiàn),函數(shù)的傳入?yún)?shù)根據(jù) axis 來(lái)定赠法,比如 axis = 1麦轰,就會(huì)把一行數(shù)據(jù)作為 Series 的數(shù)據(jù)結(jié)構(gòu)傳入給自己實(shí)現(xiàn)的函數(shù)中,我們?cè)诤瘮?shù)中實(shí)現(xiàn)對(duì) Series 不同屬性之間的計(jì)算砖织,返回一個(gè)結(jié)果款侵,則 apply 函數(shù)會(huì)自動(dòng)遍歷每一個(gè)DataFrame 的數(shù)據(jù),最后將所有結(jié)果組合成一個(gè) Series 數(shù)據(jù)結(jié)構(gòu)并返回侧纯。

字符串轉(zhuǎn)日期

DateUtil.parse方法會(huì)自動(dòng)識(shí)別一些常用格式新锈,包括:

  1. yyyy-MM-dd HH:mm:ss

  2. yyyy-MM-dd

  3. HH:mm:ss

  4. yyyy-MM-dd HH:mm

  5. yyyy-MM-dd HH:mm:ss.SSS

更多關(guān)于此方法的介紹見(jiàn) https://www.cnblogs.com/mr-wuxiansheng/p/7787296.html

以下是程序運(yùn)行的結(jié)果,可以看到成功列出了 年眶熬、月妹笆、日。

我們先按照年度來(lái)看看搶劫犯罪數(shù)量的變化趨勢(shì)娜氏。

robbery.groupby('year').size()

注意這里拳缠,數(shù)量最少的是 2019 年∶趁郑看似是很喜人的變化窟坐。可惜我們分析數(shù)據(jù)的時(shí)候茂腥,一定要留心這種細(xì)節(jié)狸涌。

我們讀取的數(shù)據(jù),統(tǒng)計(jì)時(shí)間截止到 2019 年的 3 月初最岗。因此帕胆,2019年數(shù)據(jù)并不全。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末般渡,一起剝皮案震驚了整個(gè)濱河市懒豹,隨后出現(xiàn)的幾起案子芙盘,更是在濱河造成了極大的恐慌,老刑警劉巖脸秽,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件儒老,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡记餐,警方通過(guò)查閱死者的電腦和手機(jī)驮樊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)片酝,“玉大人囚衔,你說(shuō)我怎么就攤上這事〉裱兀” “怎么了练湿?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)审轮。 經(jīng)常有香客問(wèn)我肥哎,道長(zhǎng),這世上最難降的妖魔是什么疾渣? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任篡诽,我火速辦了婚禮,結(jié)果婚禮上稳衬,老公的妹妹穿的比我還像新娘霞捡。我一直安慰自己,他們只是感情好薄疚,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布碧信。 她就那樣靜靜地躺著,像睡著了一般街夭。 火紅的嫁衣襯著肌膚如雪砰碴。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天板丽,我揣著相機(jī)與錄音呈枉,去河邊找鬼。 笑死埃碱,一個(gè)胖子當(dāng)著我的面吹牛猖辫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播砚殿,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼啃憎,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了似炎?” 一聲冷哼從身側(cè)響起辛萍,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤悯姊,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后贩毕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悯许,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年辉阶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了先壕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡睛藻,死狀恐怖启上,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情店印,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布倒慧,位于F島的核電站按摘,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏纫谅。R本人自食惡果不足惜炫贤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望付秕。 院中可真熱鬧兰珍,春花似錦、人聲如沸询吴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)猛计。三九已至唠摹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間奉瘤,已是汗流浹背勾拉。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盗温,地道東北人藕赞。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像卖局,于是被迫代替她去往敵國(guó)和親斧蜕。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345