以1024舉例构挤,使用XPath提取圖片鏈接以及磁力鏈接地址。更多見:iii.run
學習XPath的基本知識
推薦 Xpath教程 很容易理解沐兵。
推薦可以將常用的語法記下來,不常用的可以等用的時候再查涯贞。
推薦使用Chrome瀏覽器中的XPath Helper,良心之作.
左邊輸入XPath表達式危喉,右側(cè)會自動展示結(jié)果宋渔。
選擇元素之后按下ctrl + shift + x,可以自動提取該元素的XPath表達式姥饰。
常用語法
- / 從根節(jié)點選取。
- // 從匹配選擇的當前節(jié)點選擇文檔中的節(jié)點孝治,而不考慮它們的位置列粪。
- @ 選取屬性,常見使用方法為[@class = "title"]
舉例谈飒,比如在雙面膠-淘寶搜索 頁面
輸入: //[@class="m-itemlist"]//a[@trace-price<20]/@href*岂座,用來提取出class為itemlist里邊a標簽里邊所有price 小于20的產(chǎn)品,并將其href(即超鏈接)輸出
需要結(jié)合Chrome瀏覽器的F12一起使用杭措,先選定大致的框架费什,比如itemlist這個class,然后逐漸加上更多的要求手素,具體見文首給出的鏈接學習鸳址。
知道這些就可以抓取1024上的圖片和磁力鏈接了,目測是不是很簡單
挑選網(wǎng)頁實驗一下
作為一名1024資深游客泉懦,首先在技術討論區(qū)選擇一篇好文稿黍,這里用的是[榴民資訊]11月精品主題推薦(49期)
使用F12查看網(wǎng)頁的結(jié)構(gòu)
有兩個主要標簽 header 和 main 鼠標移動到main上,可以看到內(nèi)容頁面都被包含起來崩哩,所以第一個節(jié)點應該選main巡球。
使用XPath表達式篩選圖片鏈接
我們看到圖片前邊都有一個屬性src言沐,這個src后邊就是我們所需的圖片鏈接。
綜上酣栈,使用XPath表達式: //[@id="main"]//@src*
輸入XPath代碼险胰,獲得圖片鏈接。
使用XPath表達式篩選磁力鏈接
同理矿筝,我們可以發(fā)現(xiàn)起便,磁力鏈接前邊都有一個blockquote,與上一條處理方式類似跋涣,使用XPath表達式: //[@id="main"]//blockquote*
以上