寫這篇文章也是因?yàn)椴瓤永速M(fèi)了不少時(shí)間梭姓,難度一星,坑爹五星嫩码,把這個(gè)網(wǎng)站拎出來給大家避個(gè)雷誉尖,來自工作中需要抓取的一個(gè)網(wǎng)站
https://www.gdtv.cn/search?key=珠江新聞眼
找請求
沒啥好說的,這個(gè)接口:https://gdtv-api.gdtv.cn/api/search/v1/news
python模擬請求
老爬蟲操作都是從瀏覽器控制臺copy as url 到 postman 再生成 python-requests 代碼
nm的詭異現(xiàn)象來了铸题,postman發(fā)出的請求永遠(yuǎn)正常铡恕,復(fù)制代碼發(fā)出的請求永遠(yuǎn)401
我的噩夢來了琢感,先是拿出charles抓包看兩次請求不一樣的地方,再就是使用文本對比看兩次curl不一樣的地方探熔,最后甚至手寫原生的urllib請求驹针,tm的都沒找到原因,此時(shí)到這里我已經(jīng)去解決headers里面加密的字段了诀艰,實(shí)在不行python調(diào)用shell腳本執(zhí)行curl拿數(shù)據(jù)
在解決完x-itouchtv-ca-signature這玩意之后柬甥,我找到了401的原因,前面的signature是由request-body生成的涡驮,而json.dumps之后的body是加了空格美化的,當(dāng)然和signature對不上了
還有一個(gè)地方是body需要encode才行喜滨,這里我沒去細(xì)究原因了捉捅,各位看官可以給我留言
這里我必須吐槽下,我是吐槽postman還是這個(gè)網(wǎng)站的后端
signature逆向
定位加密位置以及后續(xù)打斷點(diǎn)還是非常easy的虽风,直接看圖
加密參數(shù)生成步驟
a 為 JSON.stringify(body)
p = (0, r.default)(a)
_ = l.default.stringify(p)
m = "".concat(t, "\n").concat(n, "\n").concat(d, "\n").concat(_)
signature = l.default.stringify((0, o.default)(m, "dfkcY1c3sfuw0Cii9DWjOUO3iQy2hqlDxyvDXd1oVMxwYAJSgeB6phO8eW1dfuwX"))
等價(jià)于棒口,其中變量d為13位時(shí)間戳,a為body
l.default.stringify(o.default(["POST", "https://gdtv-api.gdtv.cn/api/search/v1/news", d, l.default.stringify(r.default(a))].join("\n"), "dfkcY1c3sfuw0Cii9DWjOUO3iQy2hqlDxyvDXd1oVMxwYAJSgeB6phO8eW1dfuwX"))
加密方法辜膝,到這里我們需要關(guān)注的也就是l.default.stringify无牵、o.default、r.default三個(gè)方法
我們跟進(jìn)去看一下l.default.stringify厂抖,這不就是個(gè)base64嗎
o.default茎毁,hmac + hash,加鹽的hash忱辅,挨個(gè)測試一下七蜘,是hmacsha256
r.default,hash墙懂,挨個(gè)測試一下橡卤,是md5
寫個(gè)代碼測試下,就幾行损搬,主要想讓你們看下我背景圖碧库,哈哈哈
獲取數(shù)據(jù)
nice,可以拿到數(shù)據(jù)巧勤,下班回家
怎么才50啊嵌灰,再呆10min混個(gè)25餐補(bǔ)吧,哈哈哈