如果你是個足球迷的話,估計或多或少都會看一下昨晚中國踢韓國的比賽差凹,因?yàn)椴还芩麄兲叩迷鯓悠诒迹覀冞€是深愛著他們,那句話說得好危尿,“國足虐我千百遍能庆,我待國足如初戀”。更何況他們兩場都踢贏了脚线,所以面對第三場實(shí)力有點(diǎn)強(qiáng)的韓國隊(duì)也是希望能贏的,畢竟我們也在十二強(qiáng)賽上贏過他們弥搞!
如果你不是個足球迷邮绿,但你也可以看看渠旁,可以學(xué)習(xí)下如何去抓APP的數(shù)據(jù)。好了船逮,廢話不多說顾腊,開始抓取挖胃!
1.抓包分析請求
手機(jī)抓包我們可以用 Fiddler 軟件來抓取杂靶,如果不懂怎樣抓的話,可以看看這篇文章抓包軟件?Fiddler?了解一下酱鸭?
配置好之后吗垮,開始抓包。
首先找到需要爬取的文章
懂球帝app截圖
文章鏈接為:https://m.dongqiudi.com/article_share/896482.html
在配置好抓包之后凹髓,點(diǎn)擊下方的評論烁登,可以看到
評論截圖
抓包截圖
很容易就找到文章評論的請求,就是下面這個
可以看到請求的鏈接為:https://api.dongqiudi.com/v2/article/896482/comment?sort=down&version=177 蔚舀,
請求方法為GET饵沧,接下來就好辦了,我們再看看滑下去查看更多的評論的請求赌躺。
可以看到狼牺,向下翻頁多了兩個參數(shù),不過容易知道礼患,next 參數(shù)就是一個時間戳是钥,而 pn 參數(shù)就是頁數(shù)吧,從 0 開始的讶泰。
但是怎樣判斷所有評論已經(jīng)爬完了呢咏瑟?我們可以看看數(shù)據(jù)的詳情,下面將 json 數(shù)據(jù)格式化痪署,在下圖可以看到在 data 里面有下一頁的數(shù)據(jù)码泞,那這就容易了,哈哈
分析了狼犯,接下來就是代碼部分了余寥。
2.代碼部分
這是主體部分,先從第一個評論鏈接中爬取評論以及找出下一頁的評論地址進(jìn)而繼續(xù)爬取悯森。這里是把數(shù)據(jù)庫存進(jìn) mongodb 中宋舷。
主要的爬取邏輯,可以看出來是比較簡單的瓢姻,因?yàn)闆]有涉及到什么加密參數(shù)之類的祝蝠,但是有一個問題,每一次進(jìn)行請求的時候,有時候是會返回帶有相同的評論的绎狭,所以我們也需要在數(shù)據(jù)庫簡單地進(jìn)行去重细溅。
下面是入庫和去重的代碼部分
剩下的就沒有了。
3.查看所得的數(shù)據(jù)
由于數(shù)據(jù)分析還不熟悉儡嘶,所以暫時只制作詞云圖喇聊。
需要先將數(shù)據(jù)寫到文本上
詞云圖是:
可以看出,昨晚國足輸一場蹦狂,也被很多人噴了誓篱,但是還是有很多人是一直支持的,永遠(yuǎn)都為國足加油凯楔,里面也說到了窜骄,中國和韓國是有一定差距的,而且還有點(diǎn)大啼辣,輸了也正常不過了啊研,沒必要噴,再說我覺得昨晚的比賽已經(jīng)比第一場的比賽好很多(第二次沒看)鸥拧,還是有進(jìn)步的党远,我對國足未來淘汰賽也是充滿期望的,我相信能走得更遠(yuǎn)富弦!
下一場 踢泰國沟娱, 20號,有人看嗎腕柜?