利用R的XML`實現(xiàn)簡單網(wǎng)頁表格抓取

[TOC]

1. XML包網(wǎng)頁抓取

如果網(wǎng)頁上有很多容易讀取的表格,可以很方便利用XML包實現(xiàn)網(wǎng)頁抓取秦叛。

網(wǎng)頁語言最好為英文。XML包對于中文顯示亂碼。

An example:

library(XML)
 
# load the website,
# and analyze tables contained in this website
u <- "url"
tbls <- readHTMLTable(u)
 
# For a website may contain a large number of tables.
# Identify the table that we need through the identification
# of the row number of the tables.
sapply(tbls,nrow)
 
#Read the first table of the website "u"
pop<-readHTMLTable(u,which=1)
 
#Export data to local disk
write.csv(pop,file="FilePath")

[1]http://blog.sina.com.cn/s/blog_ebf594400102v3am.html

[2]http://stackoverflow.com/questions/23584514/error-xml-content-does-not-seem-to-be-xml-r-3-1-0

2. XML對于https的缺點

如果出現(xiàn)Error: XML Content does not seem to be XML | R 3.1.0,原因為XML包不支持https網(wǎng)頁的抓取[3]慰枕。

解決方法[3, 4]:

library (RCurl)
library (XML)
curlVersion()$features
curlVersion()$protocol
## These should show ssl and https.
## I can see these on windows 8.1 at least.
## It may differ on other OSes.
temp <- getURL("https://websiteurl",
                ssl.verifyPeer=FALSE)
DFX <- xmlTreeParse(temp,useInternal = TRUE)

[3] http://stackoverflow.com/questions/23584514/error-xml-content-does-not-seem-to-be-xml-r-3-1-0
[4] http://www.omegahat.net/RCurl/installed/RCurl/html/getURL.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市即纲,隨后出現(xiàn)的幾起案子具帮,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜂厅,死亡現(xiàn)場離奇詭異匪凡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)掘猿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進(jìn)店門病游,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人稠通,你說我怎么就攤上這事衬衬。” “怎么了采记?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵佣耐,是天一觀的道長。 經(jīng)常有香客問我唧龄,道長兼砖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任既棺,我火速辦了婚禮讽挟,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘丸冕。我一直安慰自己耽梅,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布胖烛。 她就那樣靜靜地躺著眼姐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪佩番。 梳的紋絲不亂的頭發(fā)上众旗,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天,我揣著相機(jī)與錄音趟畏,去河邊找鬼贡歧。 笑死,一個胖子當(dāng)著我的面吹牛赋秀,可吹牛的內(nèi)容都是我干的利朵。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼猎莲,長吁一口氣:“原來是場噩夢啊……” “哼绍弟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起著洼,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤晌柬,失蹤者是張志新(化名)和其女友劉穎姥份,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體年碘,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年展鸡,在試婚紗的時候發(fā)現(xiàn)自己被綠了屿衅。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡莹弊,死狀恐怖涤久,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情忍弛,我是刑警寧澤响迂,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站细疚,受9級特大地震影響蔗彤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜疯兼,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一然遏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧吧彪,春花似錦待侵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至傀缩,卻和暖如春那先,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背扑毡。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工胃榕, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瞄摊。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓勋又,卻偏偏與公主長得像,于是被迫代替她去往敵國和親换帜。 傳聞我的和親對象是個殘疾皇子楔壤,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)惯驼,斷路器蹲嚣,智...
    卡卡羅2017閱讀 134,629評論 18 139
  • Correctness AdapterViewChildren Summary: AdapterViews can...
    MarcusMa閱讀 8,855評論 0 6
  • PLEASE READ THE FOLLOWING APPLE DEVELOPER PROGRAM LICENSE...
    念念不忘的閱讀 13,441評論 5 6
  • 天空怎會懂得你的心递瑰,只是點點雨滴從天而降,融化為心涼隙畜。白夜之中抖部,路在何處,白日的夜议惰,贊嘆著慎颗,行進(jìn)著,升華著言询。觸摸不...
    正捌閱讀 295評論 15 17
  • 狗急了會跳墻俯萎,人呢?會急中生智运杭。人類為了戰(zhàn)爭夫啊,冒出了各種點子,雖然很多非沉俱荆荒謬撇眯,但是為了戰(zhàn)爭的勝利,無所不用其極躁愿,...
    Easen的卡片寫作人生閱讀 239評論 0 0