網(wǎng)頁(yè)設(shè)計(jì)師在設(shè)計(jì)網(wǎng)頁(yè)的過(guò)程中坝橡,往往會(huì)考慮頁(yè)面的視覺(jué)結(jié)構(gòu)方仿,這使得使用者可以快速分辨出網(wǎng)頁(yè)不同區(qū)域(RuiJi?Scraper的數(shù)據(jù)塊蝗羊,數(shù)據(jù)片藏澳,元數(shù)據(jù)就是基于此所定義)。在大多數(shù)的網(wǎng)頁(yè)中肘交,頁(yè)面中的不同的區(qū)域會(huì)通過(guò)橫向或縱向布局笆载,布局塊邊距等來(lái)達(dá)到視覺(jué)識(shí)別目的扑馁。以如下頁(yè)面為例:
從整體上來(lái)看涯呻,該頁(yè)面分為導(dǎo)航區(qū),搜索結(jié)果區(qū)腻要,熱詞區(qū)复罐。每個(gè)區(qū)域內(nèi)還有區(qū)域劃分,例如搜索結(jié)果區(qū)的每個(gè)搜索結(jié)果還分為文本區(qū)和縮略圖區(qū)雄家。這種結(jié)構(gòu)良好的頁(yè)面效诅,通過(guò)視覺(jué)識(shí)別算法可以將不同區(qū)域的內(nèi)容自動(dòng)識(shí)別出來(lái)。
下面我們來(lái)介紹RuiJi Scraper網(wǎng)頁(yè)視覺(jué)識(shí)別功能的使用趟济。我們同樣也上面的頁(yè)面為例乱投。
1.? 首先打開(kāi)搜狗微信搜索,搜索任意關(guān)鍵詞顷编,到搜索結(jié)果頁(yè)面
2.?打開(kāi)RuiJi Scraper抽取面板戚炫,視覺(jué)識(shí)別位于公共選項(xiàng)卡第一項(xiàng)
這里面的選項(xiàng)為過(guò)濾條件,視覺(jué)識(shí)別出的元素可能很多媳纬,我們只對(duì)其中一部分感興趣双肤,選項(xiàng)的默認(rèn)值所表示如下:
寬 :?顯示寬度在0像素-1024像素之間的Dom
高:顯示高度在0像素-1024像素之間的Dom
深度:Dom樹(shù)深度,顯示深度0-深度50
子塊:具有大于等于5的子塊
重組:根據(jù)class或path重組數(shù)據(jù)钮惠,適合部分結(jié)構(gòu)不太良好的頁(yè)面
移除相同數(shù)據(jù):如果某列識(shí)別出的數(shù)據(jù)完全一樣茅糜,該列將不再結(jié)果中展示
3.?點(diǎn)擊識(shí)別按鈕
4.?觀察識(shí)別結(jié)果
這里的5:0的意義為冒號(hào)前為深度,冒號(hào)后面為序號(hào)素挽,深度可以用來(lái)重新設(shè)置深度過(guò)濾條件蔑赘,序號(hào)僅是編號(hào)。
5.?點(diǎn)擊識(shí)別出的區(qū)域上面的編號(hào)
6.?查看識(shí)別結(jié)果
這看著有些擠,但是您可以將面板退跞靠在頁(yè)面下端來(lái)觀看抽取結(jié)果锌历,或者直接使用導(dǎo)出按鈕,導(dǎo)出結(jié)果后查看峦筒。