不用寫代碼的爬蟲----web scraper介紹

本文主要摘自官方文檔

1.可以指定多個網(wǎng)址。如果是規(guī)律的母怜。例如:

http://example.com/page/1

http://example.com/page/2

http://example.com/page/3

那我的網(wǎng)址就可以這么寫? ??http://example.com/page/[1-3]


指定網(wǎng)址

如果他的網(wǎng)址頁面不是以1遞增的锨用,比如pg/1? ? pg/11? ? pg/21? ? ? ? 那么我們可以這樣寫? ?pg/[1-21:10]? 可以認(rèn)為前面的1是默認(rèn)的构灸,所以可以不寫

2.如何爬取二級頁面(詳情頁面)

設(shè)置完前面的網(wǎng)頁惶凝,建立sitemap之后峡继,我們建立一個link? selector(鏈接選擇器)冯袍。然后再建立子選擇器。一般是text(文本)碾牌。需要注意的是康愤,我們需要在當(dāng)前頁面進(jìn)入詳情頁。一句話解釋:鏈接選擇器就是告訴插件點擊哪里舶吗,子選擇器告訴插件我要找什么數(shù)據(jù)征冷。另外,三種核心選擇器是link? selector? ,element? ?selector,? text? selector.

3.當(dāng)選擇器建立完成之后誓琼,切換到sitemap? your_sitemap.可以看到下拉框有scrape按鈕检激,點擊即可開始爬取。這時腹侣,插件會自動打開你指定的網(wǎng)址叔收,抓完數(shù)據(jù)后瀏覽器會關(guān)閉。這時會顯示:no data? scraped? yet.? refresh.點擊refresh,數(shù)據(jù)就出來了筐带。如果這時還沒有今穿,可能要回去檢查一下sitemap,哪里弄錯了

4.選擇器:選擇器大致可以分為三種----數(shù)據(jù)抽取伦籍、鏈接選擇器(link)蓝晒、元素選擇器

? ? 數(shù)據(jù)抽取選擇器只是簡單的返回從選擇的元素找到的數(shù)據(jù)。

? ? 鏈接選擇器從鏈接提取網(wǎng)址帖鸦,稍后打開提取數(shù)據(jù)芝薇。舉個例子,如果一個sitemap? tree有一個鏈接選擇器作儿,后面跟著三個子文本選擇器洛二。那么web? scraper就會打開鏈接選擇器指定的網(wǎng)址,然后抽取3個文本選擇器所指定的數(shù)據(jù)攻锰。當(dāng)然晾嘶,鏈接選擇器后面也可以跟鏈接選擇器,這樣就實現(xiàn)了三級娶吞、四級等頁面數(shù)據(jù)提壤萦亍(級數(shù)越多會越慢)

? ? 元素選擇器包含多種數(shù)據(jù)元素。例如妒蛇,元素選擇器可以在電商網(wǎng)站上選擇一系列項目机断。(對HTML熟悉的可以認(rèn)為他是包含很多子標(biāo)簽的標(biāo)簽楷拳,如div).

? ? 選擇器選項(重要)parent selectors:確認(rèn)當(dāng)下建立的選擇器的父選擇器。 multiple:很重要的選項吏奸。舉個例子欢揖,我現(xiàn)在想爬一下淘寶某個店鋪所有產(chǎn)品的名字、價格奋蔚、銷量她混。那么我先建立一個父選擇器,element? selector泊碑,此時我需要勾選mutiple.然后建立三個子文本選擇器产上。注意這時千萬不要勾選multiple.不然同一個產(chǎn)品的名字、價格蛾狗、銷量不在一行

4.1? 文本選擇器

? ? html標(biāo)簽會剝離,只有文本會返回仪媒。文本選擇器會忽略<script>,<style>標(biāo)簽中的文本沉桌。

? ? 正則:我們可以使用正則表達(dá)式對選擇器獲取的文本做進(jìn)一步提取

? ? 舉幾個例子:1)提取評論----評論有好幾條,這時應(yīng)該勾選multiple.2)提取多項目多文本算吩。這個比較常用留凭。需用元素選擇器作為文本選擇器的父選擇器。3)一個項目多個不同文本偎巢。和1不同的是這里文本選擇器是不同的蔼夜。

4.2 鏈接選擇器

? ? 如果使用鏈接選擇器而沒有任何子選擇器,那么就會提取鏈接和相應(yīng)的網(wǎng)址压昼。

? ? 注意:web? scraper僅能在<a>標(biāo)簽href屬性時工作求冷。如果不生效執(zhí)行下面的動作

? ? 1)點擊鏈接,看地址欄有無變化窍霞。如果沒有可能用的是ajax加載數(shù)據(jù)匠题。這時我們可以用element? click? selector

? ? 2) 如果網(wǎng)站打開彈出式窗口那么就應(yīng)該用link? ?popup? selector

? ? 3)網(wǎng)站可能使用js? window.location來改變網(wǎng)址,這個目前無法處理

4.3??Sitemap.xml link selector(暫不清楚)

4.4? 彈出鏈接選擇器

? ? 用法和鏈接選擇器類似但金,當(dāng)點擊鏈接打開新的窗口而不是在同一個選項卡打開 或者在新選項卡打開韭山,這時就要用到。

4.5? 圖像選擇器

? ? 圖形選擇器返回的是圖像地址冷溃。之前有下載圖形選項钱磅,現(xiàn)在我們可以用image download script

? ? 先下載python,再https://github.com/webscraperio/image-downloader下載py文件,最后把包含圖片鏈接的CSV文件放在py文件上面似枕。

4.6? 表格選擇器

?4.7? 元素屬性選擇器

? ? 從html? ?元素中提取屬性值盖淡,<a href="#" title="my title">link<a>.? ?比如提取my? title

4.8? html選擇器

4.9? grouped? selector

? ? 數(shù)據(jù)會存儲成json格式。

4.10? 元素選擇器

? ? 元素選擇器包含多種數(shù)據(jù)元素菠净,元素選擇器可以在電商網(wǎng)站上選擇一系列項目禁舷。

4.11? 元素滾動選擇器

? ? 用于某些單頁顯示的網(wǎng)頁彪杉,向下滑動加載數(shù)據(jù)。然而在淘寶測試效果不佳牵咙。

最后附上一段sitemap文件派近,json格式的。直接導(dǎo)入可用洁桌。

{"_id":"qiqixiong","startUrl":["https://ciciibear.tmall.com/category.htm?search=y&orderType=newOn_desc&pageNo=[1-20]#anchor"],"selectors":[{"id":"cloth2","type":"SelectorElement","parentSelectors":["_root"],"selector":"dl.item","multiple":true,"delay":0},{"id":"jump","type":"SelectorLink","parentSelectors":["cloth2"],"selector":"a.item-name","multiple":false,"delay":0},{"id":"title","type":"SelectorText","parentSelectors":["jump"],"selector":".tb-detail-hd h1","multiple":false,"regex":"","delay":0},{"id":"price","type":"SelectorText","parentSelectors":["jump"],"selector":".tm-promo-price span","multiple":false,"regex":"","delay":0},{"id":"sold","type":"SelectorText","parentSelectors":["jump"],"selector":".tm-ind-sellCount span.tm-count","multiple":false,"regex":"","delay":0}]}

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末渴丸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子另凌,更是在濱河造成了極大的恐慌谱轨,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吠谢,死亡現(xiàn)場離奇詭異土童,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)工坊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進(jìn)店門献汗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人王污,你說我怎么就攤上這事罢吃。” “怎么了昭齐?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵尿招,是天一觀的道長。 經(jīng)常有香客問我阱驾,道長就谜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任里覆,我火速辦了婚禮吁伺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘租谈。我一直安慰自己篮奄,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布割去。 她就那樣靜靜地躺著窟却,像睡著了一般。 火紅的嫁衣襯著肌膚如雪呻逆。 梳的紋絲不亂的頭發(fā)上夸赫,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天,我揣著相機(jī)與錄音咖城,去河邊找鬼茬腿。 笑死呼奢,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的切平。 我是一名探鬼主播握础,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼悴品!你這毒婦竟也來了禀综?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤苔严,失蹤者是張志新(化名)和其女友劉穎定枷,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體届氢,經(jīng)...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡欠窒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了退子。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贱迟。...
    茶點故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖絮供,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情茶敏,我是刑警寧澤壤靶,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站惊搏,受9級特大地震影響贮乳,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜恬惯,卻給世界環(huán)境...
    茶點故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一向拆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧酪耳,春花似錦浓恳、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至言疗,卻和暖如春晴圾,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背噪奄。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工死姚, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留人乓,地道東北人。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓都毒,卻偏偏與公主長得像色罚,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子温鸽,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內(nèi)容