和你息息相關(guān)——國自然基金標(biāo)題爬取

image

寫在前面

幾乎每年的8月份阿纤,都是科研大神們比較關(guān)注的日子登舞,因為自己年初苦心經(jīng)營的基金申請結(jié)果即將揭曉且蓬。那么究竟花落誰家会傲,其實早有定數(shù)(當(dāng)然要建立在通宵達(dá)旦的碼字以及契合審稿人的口味,也就是說要把我當(dāng)今的研究趨勢)纳像。當(dāng)然荆烈,不管各位老師以及科研工作者有沒有申請上,此時竟趾,我們更應(yīng)該care那些申請上的牛人都在做些什么憔购,博采眾長,海納百川潭兽。如果你想知道倦始,那么請跟我往下走。

目的

雖然國家自然科學(xué)基金網(wǎng)以及科學(xué)網(wǎng)等相應(yīng)網(wǎng)站都可以查詢相關(guān)的課題名稱山卦,但是如何更加快速且自如的篩選出自己想要的領(lǐng)域并且能夠下載下來慢慢琢磨體會鞋邑。這里我將采用R語言并結(jié)合科學(xué)網(wǎng)的基金頻道诵次,如下圖所示:

image
  • 當(dāng)我用“腸道菌群”作為關(guān)鍵詞去進(jìn)行搜索后,結(jié)果共得到1098項結(jié)果
image
  • 當(dāng)點擊第一頁結(jié)果枚碗,我們發(fā)現(xiàn)網(wǎng)址為“http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page=1”逾一,當(dāng)點擊第二頁結(jié)果時候,我們發(fā)現(xiàn)網(wǎng)址變?yōu)椤?a target="_blank">http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page=2”肮雨,我們發(fā)現(xiàn)只有page=后面的數(shù)字發(fā)生了變化遵堵,那么這個用R語言取爬取每一頁的內(nèi)容就比較方便的了。

R語言爬取基金標(biāo)題等內(nèi)容

  • 這里主要采用的是R包rvest(主要用于爬取內(nèi)容)以及stringr(主要對爬取后的內(nèi)容進(jìn)行相應(yīng)的整理)怨规。

  • 對于網(wǎng)頁爬蟲陌宿,則需要對網(wǎng)頁的html格式有所了解(話雖如此,我也是一個小白波丰,很白的那種)壳坪。當(dāng)然只要能實現(xiàn)我的目的就行了(建議還是可以去查找相關(guān)的資料學(xué)習(xí)一下,畢竟技多不壓身嘛)掰烟。言歸正傳爽蝴,我用的Chrome瀏覽器,所以我把鼠標(biāo)放在相應(yīng)的條目上纫骑,比如“1.基于腸道菌群介導(dǎo)的蒼術(shù)炮制機理研究”蝎亚,鼠標(biāo)右鍵點擊檢查,就會出現(xiàn)如下的網(wǎng)頁html形式:

image
  • 接下來我們想獲得基金負(fù)責(zé)人等相關(guān)消息先馆,那么如下圖所示:
image
  • 那么究竟在R里面怎么操作呢发框,代碼如下:
rm(list = ls())
# 加載相應(yīng)的包
library(rvest)
library(stringr)
site <- 'http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page='
table2 <- NULL
# 下面寫一個循環(huán),為了時間關(guān)系磨隘,我只循環(huán)到第30頁
for(page in 1:30){
  url0 <- paste(site, page, sep = "")
  web <- read_html(url0)
  News <- web %>% html_nodes('p.t') # 標(biāo)題內(nèi)容
#---獲得基金標(biāo)題---
  Title <- News %>% html_text() # 標(biāo)題內(nèi)容解析
  Title <- gsub('\n','',Title) # 去除換行符
  Title <- gsub('\\s+',' ',Title) # 去除空格
  Title
#---獲得負(fù)責(zé)人信息---
  Information <- web %>% html_nodes('div.d') %>% html_text() # 負(fù)責(zé)人等相關(guān)消息解析
  Information <- gsub('\n', ' ', Information)
  Information <- gsub('\\s+', ' ', Information)
  Information
  #Author <- web %>% html_nodes('div.d  .author') %>% html_text()
#---獲得申請單位---
 # Department <- web %>% html_nodes('.ico , #resultLst a') %>% html_text()
 # Department <- gsub('\n',' ',Department) # 去除換行符
 # Department <- gsub('\\s+',' ',Department) # 去除空格

#---保存為csv文件---
#組合成數(shù)據(jù)框
# dat <- data.frame(Title,Time,link1)
dat <- cbind(Title, Information)
table2 <- as.data.frame(rbind(table2, dat))
write.csv(table2,file = 'NSFC2019.csv',row.names = FALSE)
}

# 對表格進(jìn)行處理
df <- cbind(table2$Title,data.frame(do.call(rbind, strsplit(as.character(table2$Information), split = " "))))
df$X1 <- NULL  # 將空值的那一列刪除
# 給每一列附上列名
names(df) <- c("基金名稱","負(fù)責(zé)人","申請單位","研究類型","項目批準(zhǔn)號",
               "批準(zhǔn)年度","金額","關(guān)鍵詞")
write.csv(df,file = 'NSFC2019_revised.csv',row.names = F)
  • 最終得到的結(jié)果如下表所示:
image

寫在后面

古人有云:知己知彼缤底,方能百戰(zhàn)不殆顾患。尤其是對剛進(jìn)高校的青椒們番捂,通過這種方法可以使你在了解領(lǐng)域內(nèi)的研究方向,同時江解,也能拓寬自己的視野设预。集百家之智慧,鍛造灑家之國基犁河。

信息來源

[1] 科學(xué)網(wǎng)基金頻道:http://fund.sciencenet.cn/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鳖枕,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子桨螺,更是在濱河造成了極大的恐慌宾符,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,640評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件灭翔,死亡現(xiàn)場離奇詭異魏烫,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評論 3 395
  • 文/潘曉璐 我一進(jìn)店門哄褒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來稀蟋,“玉大人,你說我怎么就攤上這事呐赡⊥丝停” “怎么了?”我有些...
    開封第一講書人閱讀 165,011評論 0 355
  • 文/不壞的土叔 我叫張陵链嘀,是天一觀的道長萌狂。 經(jīng)常有香客問我,道長怀泊,這世上最難降的妖魔是什么粥脚? 我笑而不...
    開封第一講書人閱讀 58,755評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮包个,結(jié)果婚禮上刷允,老公的妹妹穿的比我還像新娘。我一直安慰自己碧囊,他們只是感情好树灶,可當(dāng)我...
    茶點故事閱讀 67,774評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著糯而,像睡著了一般天通。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上熄驼,一...
    開封第一講書人閱讀 51,610評論 1 305
  • 那天像寒,我揣著相機與錄音,去河邊找鬼瓜贾。 笑死诺祸,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的祭芦。 我是一名探鬼主播筷笨,決...
    沈念sama閱讀 40,352評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼龟劲!你這毒婦竟也來了胃夏?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,257評論 0 276
  • 序言:老撾萬榮一對情侶失蹤昌跌,失蹤者是張志新(化名)和其女友劉穎仰禀,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蚕愤,經(jīng)...
    沈念sama閱讀 45,717評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡答恶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,894評論 3 336
  • 正文 我和宋清朗相戀三年囊榜,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亥宿。...
    茶點故事閱讀 40,021評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡卸勺,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出烫扼,到底是詐尸還是另有隱情曙求,我是刑警寧澤,帶...
    沈念sama閱讀 35,735評論 5 346
  • 正文 年R本政府宣布映企,位于F島的核電站悟狱,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏堰氓。R本人自食惡果不足惜挤渐,卻給世界環(huán)境...
    茶點故事閱讀 41,354評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望双絮。 院中可真熱鬧浴麻,春花似錦、人聲如沸囤攀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,936評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽焚挠。三九已至膏萧,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蝌衔,已是汗流浹背榛泛。 一陣腳步聲響...
    開封第一講書人閱讀 33,054評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留噩斟,地道東北人曹锨。 一個月前我還...
    沈念sama閱讀 48,224評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像亩冬,于是被迫代替她去往敵國和親艘希。 傳聞我的和親對象是個殘疾皇子硼身,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,974評論 2 355

推薦閱讀更多精彩內(nèi)容