為了一窺國足輸韓國之后人們的評論春锋,我爬了懂球帝APP

如果你是個足球迷的話,估計或多或少都會看一下昨晚中國踢韓國的比賽差凹,因?yàn)椴还芩麄兲叩迷鯓悠诒迹覀冞€是深愛著他們,那句話說得好危尿,“國足虐我千百遍能庆,我待國足如初戀”。更何況他們兩場都踢贏了脚线,所以面對第三場實(shí)力有點(diǎn)強(qiáng)的韓國隊(duì)也是希望能贏的,畢竟我們也在十二強(qiáng)賽上贏過他們弥搞!

如果你不是個足球迷邮绿,但你也可以看看渠旁,可以學(xué)習(xí)下如何去抓APP的數(shù)據(jù)。好了船逮,廢話不多說顾腊,開始抓取挖胃!

1.抓包分析請求

手機(jī)抓包我們可以用 Fiddler 軟件來抓取杂靶,如果不懂怎樣抓的話,可以看看這篇文章抓包軟件?Fiddler?了解一下酱鸭?

配置好之后吗垮,開始抓包。

首先找到需要爬取的文章

image

懂球帝app截圖

文章鏈接為:https://m.dongqiudi.com/article_share/896482.html

在配置好抓包之后凹髓,點(diǎn)擊下方的評論烁登,可以看到

image

評論截圖

image

抓包截圖

很容易就找到文章評論的請求,就是下面這個

image

可以看到請求的鏈接為:https://api.dongqiudi.com/v2/article/896482/comment?sort=down&version=177 蔚舀,

請求方法為GET饵沧,接下來就好辦了,我們再看看滑下去查看更多的評論的請求赌躺。

image
image

可以看到狼牺,向下翻頁多了兩個參數(shù),不過容易知道礼患,next 參數(shù)就是一個時間戳是钥,而 pn 參數(shù)就是頁數(shù)吧,從 0 開始的讶泰。

但是怎樣判斷所有評論已經(jīng)爬完了呢咏瑟?我們可以看看數(shù)據(jù)的詳情,下面將 json 數(shù)據(jù)格式化痪署,在下圖可以看到在 data 里面有下一頁的數(shù)據(jù)码泞,那這就容易了,哈哈

image

分析了狼犯,接下來就是代碼部分了余寥。

2.代碼部分

image

這是主體部分,先從第一個評論鏈接中爬取評論以及找出下一頁的評論地址進(jìn)而繼續(xù)爬取悯森。這里是把數(shù)據(jù)庫存進(jìn) mongodb 中宋舷。

image

主要的爬取邏輯,可以看出來是比較簡單的瓢姻,因?yàn)闆]有涉及到什么加密參數(shù)之類的祝蝠,但是有一個問題,每一次進(jìn)行請求的時候,有時候是會返回帶有相同的評論的绎狭,所以我們也需要在數(shù)據(jù)庫簡單地進(jìn)行去重细溅。

下面是入庫和去重的代碼部分

image

剩下的就沒有了。

3.查看所得的數(shù)據(jù)

由于數(shù)據(jù)分析還不熟悉儡嘶,所以暫時只制作詞云圖喇聊。

image

需要先將數(shù)據(jù)寫到文本上

詞云圖是:

image

可以看出,昨晚國足輸一場蹦狂,也被很多人噴了誓篱,但是還是有很多人是一直支持的,永遠(yuǎn)都為國足加油凯楔,里面也說到了窜骄,中國和韓國是有一定差距的,而且還有點(diǎn)大啼辣,輸了也正常不過了啊研,沒必要噴,再說我覺得昨晚的比賽已經(jīng)比第一場的比賽好很多(第二次沒看)鸥拧,還是有進(jìn)步的党远,我對國足未來淘汰賽也是充滿期望的,我相信能走得更遠(yuǎn)富弦!

下一場 踢泰國沟娱, 20號,有人看嗎腕柜?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末济似,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子盏缤,更是在濱河造成了極大的恐慌砰蠢,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件唉铜,死亡現(xiàn)場離奇詭異台舱,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)潭流,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進(jìn)店門竞惋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人灰嫉,你說我怎么就攤上這事拆宛。” “怎么了讼撒?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵浑厚,是天一觀的道長股耽。 經(jīng)常有香客問我,道長钳幅,這世上最難降的妖魔是什么豺谈? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮贡这,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘厂榛。我一直安慰自己盖矫,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布击奶。 她就那樣靜靜地躺著辈双,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柜砾。 梳的紋絲不亂的頭發(fā)上湃望,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天,我揣著相機(jī)與錄音痰驱,去河邊找鬼证芭。 笑死,一個胖子當(dāng)著我的面吹牛担映,可吹牛的內(nèi)容都是我干的废士。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蝇完,長吁一口氣:“原來是場噩夢啊……” “哼官硝!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起短蜕,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤氢架,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后朋魔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體岖研,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年铺厨,在試婚紗的時候發(fā)現(xiàn)自己被綠了缎玫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡解滓,死狀恐怖赃磨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情洼裤,我是刑警寧澤邻辉,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響值骇,放射性物質(zhì)發(fā)生泄漏莹菱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一吱瘩、第九天 我趴在偏房一處隱蔽的房頂上張望道伟。 院中可真熱鬧,春花似錦使碾、人聲如沸蜜徽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拘鞋。三九已至,卻和暖如春矢门,著一層夾襖步出監(jiān)牢的瞬間盆色,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工祟剔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留隔躲,地道東北人。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓峡扩,卻偏偏與公主長得像蹭越,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子教届,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 前言fiddler是一個很好的抓包工具响鹃,默認(rèn)是抓http請求的,對于pc上的https請求案训,會提示網(wǎng)頁不安全买置,這時...
    胖子愛豬蹄閱讀 12,489評論 4 22
  • 轉(zhuǎn)載地址 image.png 前言 fiddler是一個很好的抓包工具,默認(rèn)是抓http請求的强霎,對于pc上的htt...
    菜菜編程閱讀 21,141評論 0 28
  • 目錄結(jié)構(gòu): 1忿项、Fiddler的基本界面 2、Fiddler的HTTP統(tǒng)計視圖 3城舞、QuickExec命令行的使用...
    程一川閱讀 2,621評論 0 17
  • iOS網(wǎng)絡(luò)架構(gòu)討論梳理整理中轩触。。家夺。 其實(shí)如果沒有APIManager這一層是沒法使用delegate的脱柱,畢竟多個單...
    yhtang閱讀 5,192評論 1 23
  • 我是利帝,帝國集團(tuán)的總裁拉馋,在十年前榨为,被你撿到惨好。你是一個非常溫柔的人,對誰都一樣随闺,唯獨(dú)對我日川,冷酷,殘暴矩乐。那是我就想...
    呆毛狐妖閱讀 124評論 0 0