進階知識點:
滾動到頁面底部,點擊「查看更多」才會加載新的內(nèi)容
一古徒、新浪微博評論中的輿情態(tài)勢
任何事件在微博的發(fā)酵速度絕對是各大平臺中最快的拓提,如果把微博評論爬取下來,進行處理和分析隧膘,就能對某個事件的不同立場和風(fēng)向有了全面的了解和掌握代态。
當(dāng)然寺惫,評論量大的微博在爬取時耗費時間較長,為了縮短操作時間胆数,找了老羅的一條評論不太多的微博進行演示肌蜻。
二、爬取老羅的微博評論
1. 創(chuàng)建Sitemap
Sitemap name
: weibo
Start URL
: https://weibo.com/1640571365/J0xeHw48Y?from=page_1035051640571365_profile&wvr=6&mod=weibotime&type=comment
2. 建立頁面「滾動至底部」和點擊「查看更多」選擇器
有些頁面變化比較細(xì)微必尼,需要仔細(xì)觀察才能發(fā)現(xiàn)蒋搜,微博評論就是這樣。
在拖動滾動條至出現(xiàn)「查看更多」的過程中判莉,頁面出現(xiàn)了輕微的卡頓豆挽,這表示頁面有一部分會隨著用戶往下瀏覽而加載。
在爬取數(shù)據(jù)時券盅,如果沒有建立「滾動至底部」的選擇器帮哈,讓卡頓的頁面也完全呈現(xiàn)出來,則會造成程序找不到「查看更多」的情況锰镀,導(dǎo)致大量的數(shù)據(jù)沒有被爬取娘侍。
建立「滾動至底部」選擇器
Id
: scroll
Type
: Element scroll down
Select
: 點擊第1條和第2條評論最外圍的方形元素
點擊Done selecting!
勾選Multiple
點擊Save seletor
完成創(chuàng)建
建立點擊「查看更多」選擇器
Id
: more
Type
: Element click
點擊Selector
的Select
: 點擊第1條和第2條評論最外圍的方形元素
點擊Done selecting!
點擊Click selector
的Select
: 點擊「查看更多」,注意點擊后對話框中的內(nèi)容是「a.WB_cardmore」
點擊Done selecting!
Click type
: Click more泳炉,表示需要不斷點擊「查看更多」
Click element uniqueness
: unique CSS Selector
勾選Multiple
點擊Save seletor
完成創(chuàng)建
3. 建立評論爬取的選擇器
點擊剛剛創(chuàng)建的more
選擇器憾筏,在此選擇器下創(chuàng)建爬取評論的選擇器
Id
: comment
Type
: Text
Select
: 點擊黃色方形元素中的評論
點擊Done selecting!
點擊Save seletor
完成創(chuàng)建
4. 執(zhí)行爬蟲程序
Request interval
和Page load delay
均按默認(rèn)即可