任務2:論文作者統(tǒng)計

2.1 任務說明

任務主題:論文作者統(tǒng)計,統(tǒng)計所有論文作者出現(xiàn)評率Top10的姓名;

任務內(nèi)容:論文作者的統(tǒng)計仰泻、使用?Pandas?讀取數(shù)據(jù)并使用字符串操作捞挥;

任務成果:學習?Pandas?的字符串操作;

2.2 數(shù)據(jù)處理步驟

在原始arxiv數(shù)據(jù)集中論文作者authors字段是一個字符串格式诊沪,其中每個作者使用逗號進行分隔分养筒,所以我們我們首先需要完成以下步驟:

使用逗號對作者進行切分;

剔除單個作者中非常規(guī)的字符娄徊;

具體操作可以參考以下例子:

C. Bal\\'azs, E. L. Berger, P. M. Nadolsky, C.-P. Yuan

# 切分為闽颇,其中\(zhòng)\為轉義符

C. Ba'lazs

E. L. Berger

P. M. Nadolsky

C.-P. Yuan

當然在原始數(shù)據(jù)集中authors_parsed字段已經(jīng)幫我們處理好了作者信息,可以直接使用該字段完成后續(xù)統(tǒng)計寄锐。

2.3 字符串處理

在Python中字符串是最常用的數(shù)據(jù)類型兵多,可以使用引號('或")來創(chuàng)建字符串。Python中所有的字符都使用字符串存儲橄仆,可以使用方括號來截取字符串剩膘,如下實例:

var1='Hello Datawhale!'var2="Python Everwhere!"print("var1[-10:]: ",var1[-10:])print("var2[1:5]: ",var2[0:7])

執(zhí)行結果為:

var1[-10:]:? Datawhale!

var2[1:5]:? Python

同時在Python中還支持轉義符:

(在行尾時)續(xù)行符

\反斜杠符號

'單引號

"雙引號

\n換行

\t橫向制表符

\r回車

Python中還內(nèi)置了很多內(nèi)置函數(shù),非常方便使用:

方法描述

string.capitalize()把字符串的第一個字符大寫

string.isalpha()如果 string 至少有一個字符并且所有字符都是字母則返回 True,否則返回 False

string.title()返回"標題化"的 string,就是說所有單詞都是以大寫開始盆顾,其余字母均為小寫(見 istitle())

string.upper()轉換 string 中的小寫字母為大寫

2.4 具體代碼實現(xiàn)以及講解

2.4.1 數(shù)據(jù)讀取

data=[]withopen("arxiv-metadata-oai-snapshot.json",'r')asf:foridx,lineinenumerate(f):d=json.loads(line)d={'authors':d['authors'],'categories':d['categories'],'authors_parsed':d['authors_parsed']}data.append(d)data=pd.DataFrame(data)

為了方便處理數(shù)據(jù)怠褐,我們只選擇了三個字段進行讀取。

2.4.2 數(shù)據(jù)統(tǒng)計

接下來我們將完成以下統(tǒng)計操作:

統(tǒng)計所有作者姓名出現(xiàn)頻率的Top10您宪;

統(tǒng)計所有作者姓(姓名最后一個單詞)的出現(xiàn)頻率的Top10奈懒;

統(tǒng)計所有作者姓第一個字符的評率;

為了節(jié)約計算時間宪巨,下面選擇部分類別下的論文進行處理:

# 選擇類別為cs.CV下面的論文data2=data[data['categories'].apply(lambdax:'cs.CV'inx)]# 拼接所有作者all_authors=sum(data2['authors_parsed'], [])

處理完成后all_authors變成了所有一個list磷杏,其中每個元素為一個作者的姓名。我們首先來完成姓名頻率的統(tǒng)計捏卓。

# 拼接所有的作者authors_names=[' '.join(x)forxinall_authors]authors_names=pd.DataFrame(authors_names)# 根據(jù)作者頻率繪制直方圖plt.figure(figsize=(10,6))authors_names[0].value_counts().head(10).plot(kind='barh')# 修改圖配置names=authors_names[0].value_counts().index.values[:10]_=plt.yticks(range(0,len(names)),names)plt.ylabel('Author')plt.xlabel('Count')

接下來統(tǒng)計姓名姓极祸,也就是authors_parsed字段中作者第一個單詞:

authors_lastnames=[x[0]forxinall_authors]authors_lastnames=pd.DataFrame(authors_lastnames)plt.figure(figsize=(10,6))authors_lastnames[0].value_counts().head(10).plot(kind='barh')names=authors_lastnames[0].value_counts().index.values[:10]_=plt.yticks(range(0,len(names)),names)plt.ylabel('Author')plt.xlabel('Count')

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子遥金,更是在濱河造成了極大的恐慌浴捆,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件稿械,死亡現(xiàn)場離奇詭異选泻,居然都是意外死亡,警方通過查閱死者的電腦和手機溜哮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進店門滔金,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人茂嗓,你說我怎么就攤上這事餐茵。” “怎么了述吸?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵忿族,是天一觀的道長。 經(jīng)常有香客問我蝌矛,道長道批,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任入撒,我火速辦了婚禮隆豹,結果婚禮上,老公的妹妹穿的比我還像新娘茅逮。我一直安慰自己璃赡,他們只是感情好,可當我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布献雅。 她就那樣靜靜地躺著碉考,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挺身。 梳的紋絲不亂的頭發(fā)上侯谁,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天,我揣著相機與錄音章钾,去河邊找鬼墙贱。 笑死,一個胖子當著我的面吹牛贱傀,可吹牛的內(nèi)容都是我干的惨撇。 我是一名探鬼主播,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼窍箍,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起椰棘,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤纺棺,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后邪狞,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體祷蝌,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年帆卓,在試婚紗的時候發(fā)現(xiàn)自己被綠了巨朦。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡剑令,死狀恐怖糊啡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情吁津,我是刑警寧澤棚蓄,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站碍脏,受9級特大地震影響梭依,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜典尾,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一役拴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧钾埂,春花似錦河闰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至故源,卻和暖如春污抬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背绳军。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工印机, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人门驾。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓射赛,卻偏偏與公主長得像,于是被迫代替她去往敵國和親奶是。 傳聞我的和親對象是個殘疾皇子楣责,可洞房花燭夜當晚...
    茶點故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內(nèi)容