2.注冊(cè)ID返咱,完成官網(wǎng)下載后就可以打開軟件氮帐,出現(xiàn)一個(gè)類似于瀏覽器的頁(yè)面。打開“MS謀數(shù)臺(tái)”,根據(jù)使用向?qū)нM(jìn)行操作即可洛姑。
3.使用步驟:
①加載網(wǎng)頁(yè)(當(dāng)當(dāng)圖書銷量排行榜): http://bang.dangdang.com/books/
在工作臺(tái)命名“主題”:dd_books_ranking
②點(diǎn)擊需要抓取的內(nèi)容上沐,然后在網(wǎng)頁(yè)標(biāo)簽中找到相應(yīng)位置,一般選取內(nèi)容的話楞艾,最終會(huì)展開選擇某個(gè)“#text”的字樣参咙,然后點(diǎn)擊右鍵進(jìn)行“內(nèi)容映射”,這樣子就可以看到網(wǎng)頁(yè)上成功地標(biāo)記了某個(gè)標(biāo)簽硫眯。
一般使用“定位標(biāo)志映射”的準(zhǔn)確率會(huì)高很多蕴侧。
集搜客在自定義xpath時(shí):
- 整理箱采集規(guī)則使用“./div”或div,定位語(yǔ)句以基點(diǎn)為準(zhǔn)两入,開始編寫路徑净宵。
- 連續(xù)動(dòng)作采用“//div”,定位語(yǔ)句時(shí)以HTML根節(jié)點(diǎn)為準(zhǔn)裹纳,開始編寫路徑择葡。
(連續(xù)動(dòng)作可模擬鼠標(biāo)進(jìn)行懸浮、點(diǎn)擊剃氧、選擇敏储、輸入、提交等操作)