和你息息相關(guān)——國自然基金標(biāo)題爬取

image

寫在前面

幾乎每年的8月份阿纤，都是科研大神們比較關(guān)注的日子登舞，因為自己年初苦心經(jīng)營的基金申請結(jié)果即將揭曉且蓬。那么究竟花落誰家会傲，其實早有定數(shù)（當(dāng)然要建立在通宵達(dá)旦的碼字以及契合審稿人的口味，也就是說要把我當(dāng)今的研究趨勢）纳像。當(dāng)然荆烈，不管各位老師以及科研工作者有沒有申請上，此時竟趾，我們更應(yīng)該care那些申請上的牛人都在做些什么憔购，博采眾長，海納百川潭兽。如果你想知道倦始，那么請跟我往下走。

目的

雖然國家自然科學(xué)基金網(wǎng)以及科學(xué)網(wǎng)等相應(yīng)網(wǎng)站都可以查詢相關(guān)的課題名稱山卦，但是如何更加快速且自如的篩選出自己想要的領(lǐng)域并且能夠下載下來慢慢琢磨體會鞋邑。這里我將采用R語言并結(jié)合科學(xué)網(wǎng)的基金頻道诵次，如下圖所示：

image

當(dāng)我用“腸道菌群”作為關(guān)鍵詞去進(jìn)行搜索后，結(jié)果共得到1098項結(jié)果

image

當(dāng)點擊第一頁結(jié)果枚碗，我們發(fā)現(xiàn)網(wǎng)址為“http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page=1”逾一，當(dāng)點擊第二頁結(jié)果時候，我們發(fā)現(xiàn)網(wǎng)址變?yōu)椤?a target="_blank">http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page=2”肮雨，我們發(fā)現(xiàn)只有page=后面的數(shù)字發(fā)生了變化遵堵，那么這個用R語言取爬取每一頁的內(nèi)容就比較方便的了。

R語言爬取基金標(biāo)題等內(nèi)容

這里主要采用的是R包rvest（主要用于爬取內(nèi)容）以及stringr（主要對爬取后的內(nèi)容進(jìn)行相應(yīng)的整理）怨规。
對于網(wǎng)頁爬蟲陌宿，則需要對網(wǎng)頁的html格式有所了解（話雖如此，我也是一個小白波丰，很白的那種）壳坪。當(dāng)然只要能實現(xiàn)我的目的就行了（建議還是可以去查找相關(guān)的資料學(xué)習(xí)一下，畢竟技多不壓身嘛）掰烟。言歸正傳爽蝴，我用的Chrome瀏覽器，所以我把鼠標(biāo)放在相應(yīng)的條目上纫骑，比如“1.基于腸道菌群介導(dǎo)的蒼術(shù)炮制機理研究”蝎亚，鼠標(biāo)右鍵點擊檢查，就會出現(xiàn)如下的網(wǎng)頁html形式：

image

接下來我們想獲得基金負(fù)責(zé)人等相關(guān)消息先馆，那么如下圖所示：

image

那么究竟在R里面怎么操作呢发框，代碼如下：

rm(list = ls())
# 加載相應(yīng)的包
library(rvest)
library(stringr)
site <- 'http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page='
table2 <- NULL
# 下面寫一個循環(huán)，為了時間關(guān)系磨隘，我只循環(huán)到第30頁
for(page in 1:30){
  url0 <- paste(site, page, sep = "")
  web <- read_html(url0)
  News <- web %>% html_nodes('p.t') # 標(biāo)題內(nèi)容
#---獲得基金標(biāo)題---
  Title <- News %>% html_text() # 標(biāo)題內(nèi)容解析
  Title <- gsub('\n','',Title) # 去除換行符
  Title <- gsub('\\s+',' ',Title) # 去除空格
  Title
#---獲得負(fù)責(zé)人信息---
  Information <- web %>% html_nodes('div.d') %>% html_text() # 負(fù)責(zé)人等相關(guān)消息解析
  Information <- gsub('\n', ' ', Information)
  Information <- gsub('\\s+', ' ', Information)
  Information
  #Author <- web %>% html_nodes('div.d  .author') %>% html_text()
#---獲得申請單位---
 # Department <- web %>% html_nodes('.ico , #resultLst a') %>% html_text()
 # Department <- gsub('\n',' ',Department) # 去除換行符
 # Department <- gsub('\\s+',' ',Department) # 去除空格

#---保存為csv文件---
#組合成數(shù)據(jù)框
# dat <- data.frame(Title,Time,link1)
dat <- cbind(Title, Information)
table2 <- as.data.frame(rbind(table2, dat))
write.csv(table2,file = 'NSFC2019.csv',row.names = FALSE)
}

# 對表格進(jìn)行處理
df <- cbind(table2$Title,data.frame(do.call(rbind, strsplit(as.character(table2$Information), split = " "))))
df$X1 <- NULL  # 將空值的那一列刪除
# 給每一列附上列名
names(df) <- c("基金名稱","負(fù)責(zé)人","申請單位","研究類型","項目批準(zhǔn)號",
               "批準(zhǔn)年度","金額","關(guān)鍵詞")
write.csv(df,file = 'NSFC2019_revised.csv',row.names = F)

最終得到的結(jié)果如下表所示：

image

寫在后面

古人有云：知己知彼缤底，方能百戰(zhàn)不殆顾患。尤其是對剛進(jìn)高校的青椒們番捂，通過這種方法可以使你在了解領(lǐng)域內(nèi)的研究方向，同時江解，也能拓寬自己的視野设预。集百家之智慧，鍛造灑家之國基犁河。

信息來源

[1] 科學(xué)網(wǎng)基金頻道：http://fund.sciencenet.cn/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末鳖枕，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子桨螺，更是在濱河造成了極大的恐慌宾符，老刑警劉巖，帶你破解...
沈念sama閱讀 218,640評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件灭翔，死亡現(xiàn)場離奇詭異魏烫，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,254評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門哄褒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來稀蟋，“玉大人，你說我怎么就攤上這事呐赡⊥丝停” “怎么了？”我有些...
開封第一講書人閱讀 165,011評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵链嘀，是天一觀的道長萌狂。經(jīng)常有香客問我，道長怀泊，這世上最難降的妖魔是什么粥脚？我笑而不...
開封第一講書人閱讀 58,755評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮包个，結(jié)果婚禮上刷允，老公的妹妹穿的比我還像新娘。我一直安慰自己碧囊，他們只是感情好树灶，可當(dāng)我...
茶點故事閱讀 67,774評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著糯而，像睡著了一般天通。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上熄驼，一...
開封第一講書人閱讀 51,610評論 1贊 305
城市分裂傳說
那天像寒，我揣著相機與錄音，去河邊找鬼瓜贾。笑死诺祸，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的祭芦。我是一名探鬼主播筷笨，決...
沈念sama閱讀 40,352評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼龟劲！你這毒婦竟也來了胃夏？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,257評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤昌跌，失蹤者是張志新（化名）和其女友劉穎仰禀，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蚕愤，經(jīng)...
沈念sama閱讀 45,717評論 1贊 315
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡答恶，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,894評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年囊榜，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亥宿。...
茶點故事閱讀 40,021評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡卸勺，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出烫扼，到底是詐尸還是另有隱情曙求，我是刑警寧澤，帶...
沈念sama閱讀 35,735評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布映企，位于F島的核電站悟狱，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏堰氓。R本人自食惡果不足惜挤渐，卻給世界環(huán)境...
茶點故事閱讀 41,354評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望双絮。院中可真熱鬧浴麻，春花似錦、人聲如沸囤攀。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,936評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽焚挠。三九已至膏萧，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間蝌衔，已是汗流浹背榛泛。一陣腳步聲響...
開封第一講書人閱讀 33,054評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留噩斟，地道東北人曹锨。一個月前我還...
沈念sama閱讀 48,224評論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長得像亩冬，于是被迫代替她去往敵國和親艘希。傳聞我的和親對象是個殘疾皇子硼身，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,974評論 2贊 355

和你息息相關(guān)——國自然基金標(biāo)題爬取

寫在前面

目的

R語言爬取基金標(biāo)題等內(nèi)容

寫在后面

信息來源

推薦閱讀更多精彩內(nèi)容