Python爬蟲實戰(zhàn)(4)Fiddler+模擬器完成APP數(shù)據爬取

前言

  • 蛋肥這次想嘗試一下爬取APP的數(shù)據,作為一個萬年潛水的老Jr碌宴,這次選擇虎撲APP論美區(qū)照片作為爬取目標捏鱼,純屬出于學術研究,沒有其他目的(嘿嘿)胁附。

準備

爬取時間:2021/02/02
系統(tǒng)環(huán)境:Windows 10
所用工具:Jupyter Notebook\Python 3.0\Fiddler\雷神模擬器
涉及的庫:requests\json

獲取基礎數(shù)據

小提示
①模擬器不要用Android 7.0以上的內核酒繁,可能會導致抓包失敗。
②因為url簽名會定期刷新控妻,所以抓包后需盡快執(zhí)行代碼州袒,不然url會失效。
參考資料
使用fiddler+模擬器進行APP抓包

獲取url

蛋肥想法:原本計劃是利用Fiddler+雷神模擬器去完成數(shù)據抓包弓候,找到數(shù)據的url規(guī)律郎哭,但實際操作發(fā)現(xiàn),url里帶sign菇存,百度了下sign的處理方法夸研,感覺暫時超出了蛋肥的知識范圍,所以這次利用雷神模擬器自帶的“操作錄制”功能依鸥,將論美區(qū)的頁面自動下滑至底部亥至,將Fiddler抓取的所有相關url地址導出,然后再去python里處理url贱迟。

#處理Fiddler里導出的url
file=open(r"C:\Users\Archer\Desktop\url.txt","r",encoding='utf-8')
url_list=file.read().split("\n")
Fiddler抓取的部分url

獲取cover地址

蛋肥想法:通過url請求json姐扮,觀察json結構發(fā)現(xiàn)“cover”對應封面照片的地址,可用之獲取照片衣吠。

import requests
import json

#獲取cover地址
def getpic(url):
    piclink=[]
    for each in url:
        link=each
        headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}
        r=requests.get(link,headers=headers,timeout=10)
        json_string=r.text
        json_data=json.loads(json_string)
        coverlist=json_data["data"]["list"]
        for each in coverlist:
            #因某些list里沒有cover茶敏,做一個判斷
            if "cover" in each:
                p=each["cover"]
                piclink.append(p)
    return(piclink)

#執(zhí)行函數(shù)
a=getpic(url_list)
#為了獲取原圖去掉url里的resize
b=[x[:x.find("?")] for x in a]
#去掉列表里的空值
c=[x for x in b if x != ""]

獲取照片

#獲取照片
def downloadpic(link):
    for i in range(len(link)):
        print(link[i])
        piclink=link[i]
        pic=requests.get(piclink)
        with open(r'C:\Users\Archer\Desktop\論美區(qū)照片\img'+str(i)+'.png', 'wb') as f:
            f.write(pic.content)

#執(zhí)行函數(shù)   
downloadpic(c)
獲取的部分照片

總結

  • 利用Fiddler可實現(xiàn)APP數(shù)據的爬取。
  • 虎撲論美區(qū)網圖是真的多缚俏。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末惊搏,一起剝皮案震驚了整個濱河市贮乳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌胀屿,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件包雀,死亡現(xiàn)場離奇詭異宿崭,居然都是意外死亡,警方通過查閱死者的電腦和手機才写,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門葡兑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人赞草,你說我怎么就攤上這事讹堤。” “怎么了厨疙?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵洲守,是天一觀的道長。 經常有香客問我沾凄,道長梗醇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任撒蟀,我火速辦了婚禮叙谨,結果婚禮上,老公的妹妹穿的比我還像新娘保屯。我一直安慰自己手负,他們只是感情好,可當我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布姑尺。 她就那樣靜靜地躺著竟终,像睡著了一般。 火紅的嫁衣襯著肌膚如雪切蟋。 梳的紋絲不亂的頭發(fā)上衡楞,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天,我揣著相機與錄音敦姻,去河邊找鬼瘾境。 笑死,一個胖子當著我的面吹牛镰惦,可吹牛的內容都是我干的迷守。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼旺入,長吁一口氣:“原來是場噩夢啊……” “哼兑凿!你這毒婦竟也來了凯力?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤礼华,失蹤者是張志新(化名)和其女友劉穎咐鹤,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體圣絮,經...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡祈惶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了扮匠。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捧请。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖棒搜,靈堂內的尸體忽然破棺而出疹蛉,到底是詐尸還是另有隱情,我是刑警寧澤力麸,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布可款,位于F島的核電站,受9級特大地震影響克蚂,放射性物質發(fā)生泄漏筑舅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一陨舱、第九天 我趴在偏房一處隱蔽的房頂上張望翠拣。 院中可真熱鬧,春花似錦游盲、人聲如沸误墓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽谜慌。三九已至,卻和暖如春莺奔,著一層夾襖步出監(jiān)牢的瞬間欣范,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工令哟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留恼琼,地道東北人。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓屏富,卻偏偏與公主長得像晴竞,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子狠半,可洞房花燭夜當晚...
    茶點故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內容

  • 久違的晴天噩死,家長會颤难。 家長大會開好到教室時,離放學已經沒多少時間了已维。班主任說已經安排了三個家長分享經驗行嗤。 放學鈴聲...
    飄雪兒5閱讀 7,523評論 16 22
  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友垛耳。感恩相遇栅屏!感恩不離不棄。 中午開了第一次的黨會艾扮,身份的轉變要...
    迷月閃星情閱讀 10,567評論 0 11
  • 在妖界我有個名頭叫胡百曉既琴,無論是何事占婉,只要找到胡百曉即可有解決的辦法泡嘴。因為是只狐貍大家以訛傳訛叫我“傾城百曉”,...
    貓九0110閱讀 3,265評論 7 3
  • 彩排完逆济,天已黑
    劉凱書法閱讀 4,218評論 1 3