Automated data collection with R
A practical guide to web scraping and text mining
關(guān)于R語(yǔ)言數(shù)據(jù)自動(dòng)化處理,如爬蟲,還有一些網(wǎng)頁(yè)相關(guān)基礎(chǔ)虫腋。
參考書就是Automated data collection with R
先是介紹一下本書的緒論和資源:
首先飒房,怎么判斷你的需求烙常,是否需要爬蟲來(lái)解決問(wèn)題:
該任務(wù)是否經(jīng)常需要重復(fù)執(zhí)行僻造,比如更新你的數(shù)據(jù)庫(kù)弥激?
你是否希望其他人能夠重復(fù)你的數(shù)據(jù)收集過(guò)程谢谦?
你是否經(jīng)常處理在線數(shù)據(jù)释牺?
這個(gè)任務(wù)在規(guī)模上和復(fù)雜度上如何?
如果這個(gè)任務(wù)可以手動(dòng)做回挽,你是否有足夠的人手資源或時(shí)間
你是否愿意通過(guò)編程來(lái)自動(dòng)化你的分析
作者介紹了一些R的實(shí)用網(wǎng)站:
新手快速入門之QuickR:https://www.statmethods.net/
R bloggers: 非常有趣的R topics没咙,收集了所有關(guān)于R的博客:http://www.r-bloggers.com/
recent advances in web technologies:關(guān)于R與其網(wǎng)站應(yīng)用的一些更新:https://cran.r-project.org/web/views/WebTechnologies.html
整本書的website在:http://www.r-datacollection.com/ 包含本書配套的教程,代碼千劈,blog等等祭刚。blog會(huì)經(jīng)常更新,推送一些實(shí)戰(zhàn)資源。