互聯(lián)網(wǎng)上有非常多的數(shù)據(jù)可供數(shù)據(jù)玩家們挖掘汇竭,有些網(wǎng)站會提供API供程序訪問葱蝗,但是很多情況下需要自己寫一些爬蟲程序去自動抓取和分析網(wǎng)頁上的內(nèi)容(也叫做Web Scraping)。現(xiàn)在比較流行的是用Python來寫爬蟲细燎,但是作為一名Rapper两曼,學(xué)會用R來寫爬蟲也是必須的。
已經(jīng)有人用R開發(fā)出了一個專門做Web scraping的包rvest:
https://github.com/hadley/rvest
https://cran.r-project.org/web/packages/rvest/index.html
rvest使用起來比較方便玻驻,有一定HTML基礎(chǔ)的同學(xué)看看github上的文檔和CRAN上的vignettes很快就能學(xué)會寫一些基本的爬蟲程序悼凑。
我在YouTube上找了幾個rvest相關(guān)的視頻,選擇了1個還比較不錯的和大家分享。
http://v.qq.com/x/page/x0318p23una.html
看過之后是不是也想自己寫個爬蟲來玩呢户辫?在下一期的“R圖秀”中渐夸,我會給大家展示如何用R來抓取和分析網(wǎng)站上的數(shù)據(jù),敬請關(guān)注渔欢!