讀取json內(nèi)容:
import json
path='路徑\文件名.txt'
records=[json.loads(line) for line in open(path)]
#records為由字典組成的列表。每個(gè)字典為一個(gè)實(shí)例
建立只有‘tz’時(shí)區(qū)字段的列表睬涧。因?yàn)椴皇敲總€(gè)字典實(shí)例都有tz字段募胃,所以要加上if 'tz' in rec。否則會(huì)報(bào)錯(cuò)宙地。
time_zone=[rec['tz'] for rec in records if 'tz' in rec]
統(tǒng)計(jì)每種時(shí)區(qū)的出現(xiàn)次數(shù):
方法一:
先統(tǒng)計(jì)次數(shù)摔认,生成{時(shí)區(qū)1:次數(shù),時(shí)區(qū)2:次數(shù)....}形式的字典宅粥。
再對(duì)字典進(jìn)行排序参袱。
統(tǒng)計(jì)次數(shù)方法(1):
from collections import defaultdict #次數(shù)統(tǒng)計(jì)函數(shù)
def get_counts(sequences)
counts=defaultdict(int) #初始化次數(shù)統(tǒng)計(jì)字典,將其初始值設(shè)為0
for x in sequences:
counts[x]+=1
return counts
統(tǒng)計(jì)次數(shù)方法(2):
from collections import defaultdict
def get_count2(sequence):
counts=defaultdict(int)
for x in sequence:
counts[x]+=1
return counts
排序
def top_count(counts,n=10) #字典排序函數(shù)秽梅,兩個(gè)參數(shù)里一個(gè)是計(jì)數(shù)字典抹蚀,一個(gè)是排序取前幾。默認(rèn)為前10企垦。
value_key_pairs=[(count,tz) for tz, count in counts.items()]
value_key_pairs.sort()
return value_key_pairs[-10:]
counts=get_counts(time_zone)
top10=top_count(counts)
其中counts.items()是將字典中的鍵值對(duì)以元組的形式放進(jìn)列表里环壤。
例:counts:
{u'America/Montreal': 9, u'America/Anchorage': 5, u'Asia/Seoul': 5}
counts.items():
[(u'America/Montreal', 9), (u'America/Anchorage', 5), (u'Asia/Seoul', 5)]
而這句:value_key_pairs=[(count,tz) for tz, count in counts.items()]則是對(duì)返回的鍵,值對(duì)元組的位置做了調(diào)換钞诡。
例:[(9, u'America/Montreal'), (5, u'America/Anchorage'), (5, u'Asia/Seoul')]
value_key_pairs.sort()中 list.sort()方法只能用于列表郑现,是對(duì)原列表進(jìn)行排序。默認(rèn)升序荧降。需要降序則value_key_pairs.sort(reverse=False)
關(guān)于排序的知識(shí)詳細(xì)參考:http://www.cnblogs.com/freemao/p/3869994.html
方法二:使用Counter類(lèi)
from collections import Counter
counts=Counter(time_zone)
top10=counts.most_common(10)
Counter類(lèi)的目的是用來(lái)跟蹤值出現(xiàn)的次數(shù)接箫。它是一個(gè)無(wú)序的容器類(lèi)型,以字典的鍵值對(duì)形式存儲(chǔ)朵诫,其中元素作為key辛友,其計(jì)數(shù)作為value。計(jì)數(shù)值可以是任意的Interger(包括0和負(fù)數(shù))剪返。Counter類(lèi)和其他語(yǔ)言的bags或multisets很相似废累。
詳細(xì)參考:http://www.jb51.net/article/85542.htm
方法三:用pandas計(jì)數(shù)
import pandas as pd
import numpy as np
frame=pd.DataFrame(records)
tz_counts=frame['tz'].value_counts() #計(jì)數(shù)并且排序,默認(rèn)降序脱盲。tz_counts如下:
注意里面有空值
clear_tz=frame['tz'].fillna('Missing') #替換掉frame里缺失tz字段的NA
clear_tz[clear_tz=='']='Unknown #通過(guò)布爾型數(shù)組索引替換空字符串
tz_counts=clear_tz.value_counts()
此時(shí)的tz_counts如下邑滨。注意空字符串變成了unknow。以及增加了missing計(jì)數(shù)钱反。
使用前十的數(shù)據(jù)驼修,利用plot方法生成一張水平條形圖殿遂。
tz_counts[:10].plot(kind='barh',rot=0)
總結(jié):
1.往字典里存數(shù)據(jù)需要先初始化字典∫腋鳎可使用defaultdict函數(shù):
from collections import defaultdict
counts=defaultdict(int) #初始化次數(shù)統(tǒng)計(jì)字典墨礁,將其初始值設(shè)為0
2.清洗數(shù)據(jù),有的數(shù)據(jù)沒(méi)有某個(gè)字段耳峦,一是要替換掉這些缺失值恩静,可用fillna方法替換。二是要注意有沒(méi)有空字符串蹲坷,這種數(shù)據(jù)可通過(guò)布爾型數(shù)組索引來(lái)替換掉驶乾。
3.對(duì)某個(gè)字段的值的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),可使用三種方法
(1)新建一個(gè)字典循签,用以統(tǒng)計(jì)每個(gè)值的出現(xiàn)次數(shù)级乐。再將該字典轉(zhuǎn)換為列表,對(duì)列表進(jìn)行排序县匠。
(2)使用counter類(lèi)進(jìn)行次數(shù)統(tǒng)計(jì)并排序风科。
(3)先將json轉(zhuǎn)換為DataFrame對(duì)象,再對(duì)其tz字段使用pandas的value_counts()方法進(jìn)行次數(shù)統(tǒng)計(jì)并排序乞旦。