例子:B站新番榜單
今天抓取新番榜單的動(dòng)畫(huà)名稱和動(dòng)畫(huà)名稱后的鏈接url
B站新番榜單
通用步驟
1. 打開(kāi)插件
2. 創(chuàng)建sitemap
3. 選擇合適的選擇器(selector)
4. 爬取數(shù)據(jù)
5. 下載CSV數(shù)據(jù)
詳解
這里上面5個(gè)步驟和前面一小節(jié)的步驟相同,只有第3步選擇選擇器不同颜启,我們只選關(guān)鍵的第3步來(lái)講解一下铜秆,抓取不同的網(wǎng)站或內(nèi)容時(shí) 選擇合適的選擇器為關(guān)鍵點(diǎn)贞远,具體網(wǎng)站具體分析。
1 打開(kāi)軟件
略過(guò)
2 創(chuàng)建sitemap
略過(guò)
3 選擇合適的選擇器(selector)
這里我們?nèi)赃x擇的是 B站新番榜單
- 創(chuàng)建sitemap完成后點(diǎn)擊 add new selector
增加selector - 選擇selector
1:填寫(xiě)selector的名稱
2:因?yàn)橐ト〉氖敲Q和url 所以type選擇Link選擇器
3: 點(diǎn)擊select然后選中 4斧散,5淋袖, 6的文本,然后你發(fā)現(xiàn)下面的文本也被自動(dòng)選中了 點(diǎn)擊 7 Done selecting! 我們就選中了我們所需要的數(shù)據(jù)區(qū)域
8: 選中Muliple 因?yàn)槲覀冃枰嵌鄺l數(shù)據(jù)嘁酿,如果不選僅僅只有一行數(shù)據(jù)
9: 選中我們的父級(jí)selector,_root 是sitemap建立后初始化的根selector男应,我們創(chuàng)建的選擇器都是在_root下的子選擇器
10: 保存
11
4 爬取數(shù)據(jù)
略過(guò)
5 下載數(shù)據(jù)查看數(shù)據(jù)格式
以下就是我們抓取的數(shù)據(jù)了 后面title_link-href 就是標(biāo)題的鏈接了
5