rvest包采集豆瓣TOP250書單

1. ?read_html(url, encoding = "") 下載html頁面, url為網(wǎng)址持隧,encoding為網(wǎng)址編碼

2. ?html_form(x) 解析網(wǎng)頁的表單信息

eg: box_office <- read_html("http://www.boxofficemojo.com/movies/?id=ateam.htm")

? ? ? box_office %>% html_node("form") %>% html_form()

3. ?html_nodes(x, css, xpath)

? ? ?html_node(x, css, xpath) ?從html文件中選取標簽

? ? ?CSS 選擇器參考手冊 http://www.w3school.com.cn/cssref/css_selectors.asp

4. html_text(x) 讀取文本內(nèi)容

5. html_attr(x)讀取屬性值


library(rvest) #導(dǎo)入rvest包

num <- seq(0, 225, by = 25) #構(gòu)建0, 25一死,50周伦,...郑现,225的向量

info <- c()#初始化向量湃崩,用于存儲書籍信息

bookname <- c()#初始化向量,用于存儲書名

info1 <- c()#初始化向量接箫,用于存儲循環(huán)采集到某一頁的書籍信息

bookname1 <- c()#初始化向量攒读,用于存儲循環(huán)采集到某一頁得書名

for(i in num){

url <- paste0("https://book.douban.com/top250?start=",i) ?#構(gòu)建采集網(wǎng)址

webpage <- read_html(url) #下載網(wǎng)頁內(nèi)容

info1 <- html_nodes(webpage, "p[class='pl']") %>% html_text() #讀取書籍信息

bookname1 <- html_nodes(webpage, "div[class='pl2'] a") %>% html_text() #讀取書名

info <- c(info, info1) #新采集到的書籍信息,追加到info向量后

bookname <- c(bookname, bookname1) #新采集到的書名信息辛友,追加到bookname向量后

}

topbook250 <- data.frame(bookname, info) #構(gòu)建數(shù)據(jù)框

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末薄扁,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子废累,更是在濱河造成了極大的恐慌邓梅,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件邑滨,死亡現(xiàn)場離奇詭異日缨,居然都是意外死亡,警方通過查閱死者的電腦和手機掖看,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進店門匣距,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人哎壳,你說我怎么就攤上這事毅待。” “怎么了归榕?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵尸红,是天一觀的道長。 經(jīng)常有香客問我,道長外里,這世上最難降的妖魔是什么邑飒? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮级乐,結(jié)果婚禮上疙咸,老公的妹妹穿的比我還像新娘。我一直安慰自己风科,他們只是感情好撒轮,可當我...
    茶點故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著贼穆,像睡著了一般题山。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上故痊,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天顶瞳,我揣著相機與錄音,去河邊找鬼愕秫。 笑死慨菱,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的戴甩。 我是一名探鬼主播符喝,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼甜孤!你這毒婦竟也來了协饲?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤缴川,失蹤者是張志新(化名)和其女友劉穎茉稠,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體把夸,經(jīng)...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡而线,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了扎即。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吞获。...
    茶點故事閱讀 38,643評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖谚鄙,靈堂內(nèi)的尸體忽然破棺而出各拷,到底是詐尸還是另有隱情,我是刑警寧澤闷营,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布烤黍,位于F島的核電站知市,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏速蕊。R本人自食惡果不足惜嫂丙,卻給世界環(huán)境...
    茶點故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望规哲。 院中可真熱鬧跟啤,春花似錦、人聲如沸唉锌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽袄简。三九已至腥放,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绿语,已是汗流浹背秃症。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留吕粹,地道東北人种柑。 一個月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像昂芜,于是被迫代替她去往敵國和親莹规。 傳聞我的和親對象是個殘疾皇子赔蒲,可洞房花燭夜當晚...
    茶點故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理泌神,服務(wù)發(fā)現(xiàn),斷路器舞虱,智...
    卡卡羅2017閱讀 134,633評論 18 139
  • LVC講道筆記 2016.4.17 兩種選擇:愛或恨to love or to hate 《約翰一書》3:11-1...
    含羞的紅顏閱讀 1,377評論 0 0
  • 題目鏈接:題目鏈接資源鏈接 分析:1.發(fā)現(xiàn)題目提示”請仔細看比賽說明”2.進入”比賽說明”,首先瀏覽一遍,并沒有發(fā)...
    王一航閱讀 1,662評論 0 1
  • 年少無知時說喜歡欢际, 十指相扣,說:非你不可矾兜。 再后來损趋, 陽光不再是那么明媚, 春風(fēng)不再是那么輕柔椅寺, 你不再是你浑槽,我...
    無雙子閱讀 479評論 0 2
  • 今天更新兩人頭像,是一位漂亮媽媽和一枚可愛萌寶哦返帕。為了更詳細展示過程桐玻,更新步驟圖片有點多,大家要有耐心看哈荆萤。 準備...
    多恩美術(shù)工作室閱讀 1,089評論 5 7