數(shù)據(jù)分析案例--USA.gov數(shù)據(jù)

本章節(jié)以及后續(xù)章節(jié)的源碼播玖,當(dāng)然也可以從我的github下載弧械,在源碼中我自己加了一些中文注釋界赔。

????????來(lái)自Bitly的USA.gov數(shù)據(jù) ,文件中各行的格式為JSON(即JavaScript Object Notation顶掉,這是一種常用的Web數(shù)據(jù)格式)。例如挑胸,如果我們只讀取某個(gè)文件中的第一行痒筒,那么所看到的結(jié)果應(yīng)該是下面這樣:

????????Python有內(nèi)置或第三方模塊可以將JSON字符串轉(zhuǎn)換成Python字典對(duì)象。這里,我將使用json模塊及其loads函數(shù)逐行加載已經(jīng)下載好的數(shù)據(jù)文件凸克,records對(duì)象就成為一組Python字典了:

一议蟆、用純Python代碼對(duì)時(shí)區(qū)進(jìn)行計(jì)數(shù)

假設(shè)我們想要知道該數(shù)據(jù)集中最常出現(xiàn)的是哪個(gè)時(shí)區(qū)(即tz字段)

計(jì)數(shù)的辦法是在遍歷時(shí)區(qū)的過程中將計(jì)數(shù)值保存在字典中:

這樣寫會(huì)使get_counts函數(shù)更簡(jiǎn)潔

得到前10位的時(shí)區(qū)及其計(jì)數(shù)值:

另一種更快捷的方法:

二、用pandas對(duì)時(shí)區(qū)進(jìn)行計(jì)數(shù)

1萎战、把數(shù)據(jù)建成表

下圖是DataFrame格式的frame表:

2咐容、計(jì)算時(shí)區(qū)數(shù)量

????????frame['tz']所返回的Series對(duì)象有一個(gè)value_counts方法,計(jì)算每個(gè)時(shí)區(qū)出現(xiàn)的數(shù)量蚂维,從大到小排列:

3戳粒、填充缺失值

????????fillna函數(shù)可以替換缺失值NA,而未知值(空字符串)可以通過布爾型數(shù)組索引加以替換

4虫啥、常出現(xiàn)的10個(gè)時(shí)區(qū)進(jìn)行繪圖

?usa.gov示例數(shù)據(jù)中最常出現(xiàn)的時(shí)區(qū)
usa.gov示例數(shù)據(jù)中最常出現(xiàn)的時(shí)區(qū)

5蔚约、分離出瀏覽器

????????a字段含有執(zhí)行URL短縮操作的瀏覽器、設(shè)備涂籽、應(yīng)用程序的相關(guān)信息:

6苹祟、統(tǒng)計(jì)各個(gè)瀏覽器出現(xiàn)的數(shù)量

7、按照Windows和非Windows用戶對(duì)時(shí)區(qū)統(tǒng)計(jì)信息進(jìn)行分解

(1)由于有的agent缺失评雌,所以首先將他們從數(shù)據(jù)中移除树枫,其次根據(jù)a值計(jì)算出各行是否是Windows

(2)根據(jù)時(shí)區(qū)和新得到的操作系統(tǒng)列表對(duì)數(shù)據(jù)進(jìn)行分組

(3)分組計(jì)數(shù),通過size()對(duì)分組結(jié)果進(jìn)行計(jì)數(shù)景东,并利用unstack對(duì)計(jì)數(shù)結(jié)果進(jìn)行重塑

(4)我們來(lái)選取最常出現(xiàn)的時(shí)區(qū)砂轻。為了達(dá)到這個(gè)目的,我根據(jù)agg_counts中的行數(shù)構(gòu)造了一個(gè)間接索引數(shù)組:

(5)通過take按照這個(gè)順序截取了最后10行最大值:

(6)做柱狀圖

最常出現(xiàn)時(shí)區(qū)的Windows和非Windows用戶??

(7)上圖不太容易看清楚較小分組中Windows用戶的相對(duì)比例斤吐,因此標(biāo)準(zhǔn)化分組百分比之和為1:

快速學(xué)習(xí):

第一節(jié) NumPy基礎(chǔ)(一)

第二節(jié) NumPy基礎(chǔ)(二)

第三節(jié) Pandas入門基礎(chǔ)

第四節(jié) 數(shù)據(jù)加載搔涝、存儲(chǔ)

第五節(jié) 數(shù)據(jù)清洗

第六節(jié) 數(shù)據(jù)合并、重塑

第七節(jié) 數(shù)據(jù)聚合與分組運(yùn)算

第八節(jié) 數(shù)據(jù)可視化

第九節(jié) pandas高級(jí)應(yīng)用

第十節(jié) 時(shí)間序列

第十一節(jié) Python建模庫(kù)

數(shù)據(jù)分析案例--1880-2010年間全美嬰兒姓名的處理

數(shù)據(jù)分析案例--MovieLens 1M數(shù)據(jù)集

數(shù)據(jù)分析案例--USA.gov數(shù)據(jù)

數(shù)據(jù)分析案例--2012聯(lián)邦選舉委員會(huì)數(shù)據(jù)庫(kù)

數(shù)據(jù)分析案例--USDA食品數(shù)據(jù)庫(kù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末和措,一起剝皮案震驚了整個(gè)濱河市庄呈,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌臼婆,老刑警劉巖抒痒,帶你破解...
    沈念sama閱讀 212,222評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異颁褂,居然都是意外死亡故响,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,455評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門颁独,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)彩届,“玉大人,你說我怎么就攤上這事誓酒≌寥洌” “怎么了贮聂?”我有些...
    開封第一講書人閱讀 157,720評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)寨辩。 經(jīng)常有香客問我吓懈,道長(zhǎng),這世上最難降的妖魔是什么靡狞? 我笑而不...
    開封第一講書人閱讀 56,568評(píng)論 1 284
  • 正文 為了忘掉前任耻警,我火速辦了婚禮,結(jié)果婚禮上甸怕,老公的妹妹穿的比我還像新娘甘穿。我一直安慰自己,他們只是感情好梢杭,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,696評(píng)論 6 386
  • 文/花漫 我一把揭開白布温兼。 她就那樣靜靜地躺著,像睡著了一般武契。 火紅的嫁衣襯著肌膚如雪募判。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,879評(píng)論 1 290
  • 那天吝羞,我揣著相機(jī)與錄音兰伤,去河邊找鬼内颗。 笑死钧排,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的均澳。 我是一名探鬼主播恨溜,決...
    沈念sama閱讀 39,028評(píng)論 3 409
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼找前!你這毒婦竟也來(lái)了糟袁?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,773評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤躺盛,失蹤者是張志新(化名)和其女友劉穎项戴,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體槽惫,經(jīng)...
    沈念sama閱讀 44,220評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡周叮,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,550評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了界斜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片仿耽。...
    茶點(diǎn)故事閱讀 38,697評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖各薇,靈堂內(nèi)的尸體忽然破棺而出项贺,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 34,360評(píng)論 4 332
  • 正文 年R本政府宣布开缎,位于F島的核電站棕叫,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏奕删。R本人自食惡果不足惜谍珊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,002評(píng)論 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望急侥。 院中可真熱鬧砌滞,春花似錦、人聲如沸坏怪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,782評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)铝宵。三九已至打掘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鹏秋,已是汗流浹背尊蚁。 一陣腳步聲響...
    開封第一講書人閱讀 32,010評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留侣夷,地道東北人横朋。 一個(gè)月前我還...
    沈念sama閱讀 46,433評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像百拓,于是被迫代替她去往敵國(guó)和親琴锭。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,587評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容