任務主題:論文作者統(tǒng)計,統(tǒng)計所有論文作者出現(xiàn)評率Top10的姓名;
任務內(nèi)容:論文作者的統(tǒng)計仰泻、使用?Pandas?讀取數(shù)據(jù)并使用字符串操作捞挥;
任務成果:學習?Pandas?的字符串操作;
在原始arxiv數(shù)據(jù)集中論文作者authors字段是一個字符串格式诊沪,其中每個作者使用逗號進行分隔分养筒,所以我們我們首先需要完成以下步驟:
使用逗號對作者進行切分;
剔除單個作者中非常規(guī)的字符娄徊;
具體操作可以參考以下例子:
C. Bal\\'azs, E. L. Berger, P. M. Nadolsky, C.-P. Yuan
# 切分為闽颇,其中\(zhòng)\為轉義符
C. Ba'lazs
E. L. Berger
P. M. Nadolsky
C.-P. Yuan
當然在原始數(shù)據(jù)集中authors_parsed字段已經(jīng)幫我們處理好了作者信息,可以直接使用該字段完成后續(xù)統(tǒng)計寄锐。
在Python中字符串是最常用的數(shù)據(jù)類型兵多,可以使用引號('或")來創(chuàng)建字符串。Python中所有的字符都使用字符串存儲橄仆,可以使用方括號來截取字符串剩膘,如下實例:
var1='Hello Datawhale!'var2="Python Everwhere!"print("var1[-10:]: ",var1[-10:])print("var2[1:5]: ",var2[0:7])
執(zhí)行結果為:
var1[-10:]:? Datawhale!
var2[1:5]:? Python
同時在Python中還支持轉義符:
(在行尾時)續(xù)行符
\反斜杠符號
'單引號
"雙引號
\n換行
\t橫向制表符
\r回車
Python中還內(nèi)置了很多內(nèi)置函數(shù),非常方便使用:
方法描述
string.capitalize()把字符串的第一個字符大寫
string.isalpha()如果 string 至少有一個字符并且所有字符都是字母則返回 True,否則返回 False
string.title()返回"標題化"的 string,就是說所有單詞都是以大寫開始盆顾,其余字母均為小寫(見 istitle())
string.upper()轉換 string 中的小寫字母為大寫
data=[]withopen("arxiv-metadata-oai-snapshot.json",'r')asf:foridx,lineinenumerate(f):d=json.loads(line)d={'authors':d['authors'],'categories':d['categories'],'authors_parsed':d['authors_parsed']}data.append(d)data=pd.DataFrame(data)
為了方便處理數(shù)據(jù)怠褐,我們只選擇了三個字段進行讀取。
接下來我們將完成以下統(tǒng)計操作:
統(tǒng)計所有作者姓名出現(xiàn)頻率的Top10您宪;
統(tǒng)計所有作者姓(姓名最后一個單詞)的出現(xiàn)頻率的Top10奈懒;
統(tǒng)計所有作者姓第一個字符的評率;
為了節(jié)約計算時間宪巨,下面選擇部分類別下的論文進行處理:
# 選擇類別為cs.CV下面的論文data2=data[data['categories'].apply(lambdax:'cs.CV'inx)]# 拼接所有作者all_authors=sum(data2['authors_parsed'], [])
處理完成后all_authors變成了所有一個list磷杏,其中每個元素為一個作者的姓名。我們首先來完成姓名頻率的統(tǒng)計捏卓。
# 拼接所有的作者authors_names=[' '.join(x)forxinall_authors]authors_names=pd.DataFrame(authors_names)# 根據(jù)作者頻率繪制直方圖plt.figure(figsize=(10,6))authors_names[0].value_counts().head(10).plot(kind='barh')# 修改圖配置names=authors_names[0].value_counts().index.values[:10]_=plt.yticks(range(0,len(names)),names)plt.ylabel('Author')plt.xlabel('Count')
接下來統(tǒng)計姓名姓极祸,也就是authors_parsed字段中作者第一個單詞:
authors_lastnames=[x[0]forxinall_authors]authors_lastnames=pd.DataFrame(authors_lastnames)plt.figure(figsize=(10,6))authors_lastnames[0].value_counts().head(10).plot(kind='barh')names=authors_lastnames[0].value_counts().index.values[:10]_=plt.yticks(range(0,len(names)),names)plt.ylabel('Author')plt.xlabel('Count')