- 前言
中國(guó)裁判文書網(wǎng)的反爬策略也是對(duì)爬蟲們毫不憐惜耳贬,今天給大家簡(jiǎn)單講一下關(guān)于裁判文書網(wǎng)中的js加密問題,分為兩部分來講丸氛,方便大家了解學(xué)習(xí)罚舱。還是老規(guī)矩井辜,僅供學(xué)習(xí)參考,切勿用于商業(yè)用途管闷。
一粥脚、介紹
打開裁判文書網(wǎng),發(fā)現(xiàn)瀏覽器訪問不了List頁面包个,只好改用火狐瀏覽器刷允。進(jìn)入到List頁面(也就是可以看到很多案件的那一頁),發(fā)現(xiàn)是Ajax異步更新頁面,也就是說它用JS來加載更新數(shù)據(jù)树灶,而不更新整個(gè)頁面纤怒。那么我們只有兩種方案,一種是用selenium+瀏覽器天通,來驅(qū)動(dòng)瀏覽器來加載數(shù)據(jù)泊窘,但是此方案效率非常感人,如果采集數(shù)據(jù)量大或更新頻率高土砂,非常不推薦這種方式州既。另一種就是找數(shù)據(jù)加載的接口位置谜洽,這里不明白的可以看我之前的文章python爬蟲項(xiàng)目(新手教程)之知乎萝映。這一步一般都會(huì)有JS加密來防范爬蟲。
二阐虚、頁面分析
我們先找到案件數(shù)據(jù)加載的接口位置序臂,如圖2-1所示:
找到接口位置后,查看請(qǐng)求方式為post实束,那么意味著我們需要參數(shù)訪問奥秆。我們先看此頁面的cookies,后面會(huì)需要用到咸灿,如圖2-2所示:
這里的vjkl5构订,后面會(huì)用到,先圈出來避矢。我們接下來查看post請(qǐng)求參數(shù)悼瘾,如圖2-3 所示:
這里的參數(shù)前面都很好理解,Param:案件類型审胸,Index:索引頁面亥宿,Page:設(shè)置當(dāng)前頁面數(shù)據(jù)請(qǐng)求條數(shù),Order:是哪個(gè)級(jí)別砂沛,Direction:返回文件格式烫扼。后面三個(gè)參數(shù)vl5x,number碍庵,guid不知道是什么意義映企,其它的可以自己選擇設(shè)置,所以我們今天我們需要做的就是找到這三個(gè)參數(shù)的獲取方式静浴。
三堰氓、JS加密研究
我們既然知道是JS方式加載的參數(shù),所以檢索所有加載的JS文件马绝,找到vl5x和guid兩個(gè)關(guān)鍵字豆赏。這一步?jīng)]什么好方法,地毯式搜索≈腊睿總共38個(gè)JS文件白胀,從Lawyee.CPWSW.List.js 文件找到如下代碼如圖3-1所示:
可以看到data里面寫了所有參數(shù)獲取位置,我們先看number抚岗,同樣在這個(gè)js文件的代碼中順著number:yzm1或杠,可以發(fā)現(xiàn)如圖3-2所示:
可以順著發(fā)現(xiàn),number等于yzm1宣蔚,yzm1等于subyzm[7,11]向抢,subyzm又為當(dāng)前鏈接url下&number參數(shù)坐標(biāo)+1位置開始的子串subyzm,如當(dāng)前鏈接為http://wenshu.court.gov.cn/Assets/js/20180919/Lawyee.CPWSW.List.js胚委,沒有&number所以坐標(biāo)為-1+1挟鸠,subyzm=url[0:],yzm1=subyzm[7:11]=wens亩冬,大家不理解可以看下JS代碼艘希,我這里翻譯成python語言是這樣。
這樣我們找到了number硅急,同樣方法在此文件下檢索guid覆享,發(fā)現(xiàn)如圖3-3所示:
很容易發(fā)現(xiàn)guid等于guid1,guid1又等于幾個(gè)createGuid( )組合起來的一串?dāng)?shù)字营袜,而CreateGuid函數(shù)也已經(jīng)給出撒顿,隨機(jī)數(shù)字產(chǎn)生。
這樣我們只需要找到vl5x就可以了荚板,這個(gè)放最后講也是因?yàn)檫@個(gè)參數(shù)最麻煩凤壁,在當(dāng)前文件下,我們根據(jù)圖3-1只能知道vl5x:getKey()啸驯,我們只要找到getKey()這個(gè)函數(shù)即可客扎,但是此文件沒有找到getKey( )罚斗,意味著這是一個(gè)外部函數(shù)徙鱼。我們需要從其它文件下獲取。
同樣针姿,我們一個(gè)一個(gè)搜索著getKey()函數(shù)袱吆,在Lawyee.CPWSW.ListExtend.js文件下找到如圖3-4所示:
我們得到這個(gè)參數(shù)了,想要和之前一樣去讀懂這個(gè)函數(shù)是不可能的了距淫,因?yàn)椴粌H非常長(zhǎng)非常長(zhǎng)绞绒,而且還有JS混淆,關(guān)于js混淆榕暇,就是把其中的變量蓬衡、方法位置順序打亂喻杈,但是又用一些無關(guān)的變量或者方法來保證執(zhí)行順序,這種js混淆的也很好處理狰晚,復(fù)制完整的混淆代碼去js混淆還原網(wǎng)站還原筒饰。也可以利用chrome中的Console后臺(tái)調(diào)試JS代碼了,直接copy這段代碼進(jìn)去發(fā)現(xiàn)如圖3-5所示:
發(fā)現(xiàn)de沒有定義壁晒,我們?cè)诖宋募l(fā)現(xiàn)de函數(shù)定義后瓷们,加進(jìn)去發(fā)現(xiàn)如圖3-6所示:
其中_fxxx沒有,我們又找到_fxxx定義后加入發(fā)現(xiàn)如圖3-7所示:
我們發(fā)現(xiàn)這里要獲取網(wǎng)頁Cookie值秒咐,但是JS代碼發(fā)現(xiàn)如圖3-8所示:
這是一段加密的JS代碼谬晕,根本看不到什么意思,但是用chrome瀏覽器source可以看到其中真正的代碼携取,這里要如何使用呢攒钳,就是調(diào)試的時(shí)候設(shè)置斷點(diǎn),這樣到這里就可以顯示出來歹茶,當(dāng)然也可以去js混淆網(wǎng)站去解密也可以看到相關(guān)內(nèi)容夕玩,這里在chrome調(diào)試下發(fā)現(xiàn)如圖3-9所示:
這里的cookie值要去得到cookie中vjkl5的值,所以我們要想得到vl5x這個(gè)參數(shù)惊豺,事先還必須得到網(wǎng)站給我請(qǐng)求加的cookies上vjkl5的值才行。然后我們?cè)谶@里需要改寫這段代碼禽作,方法也很簡(jiǎn)單尸昧,在此函數(shù)前自定義一個(gè)getCookie的函數(shù),直接返回我們獲取到的cookies上vjkl5的值旷偿,這里我們以參數(shù)的形式傳進(jìn)去烹俗,改寫如圖3-10所示:
加入我們自定義的getCookie方法后,我們繼續(xù)測(cè)試萍程,調(diào)試代碼幢妄,輸入getKey(‘123’)發(fā)現(xiàn)如圖3-11所示:
繼續(xù)缺少函數(shù),這里我們找hex_md5茫负,發(fā)現(xiàn)在/Assets/js/dist/libs/md5.js文件下蕉鸳,我們繼續(xù)copy下來,放入進(jìn)去調(diào)試忍法。如圖3-12所示:
到這里基本上就是重復(fù)以上步驟潮尝,找到所缺函數(shù)定義位置,加入進(jìn)去饿序。這里找到Base64函數(shù)定義勉失,放進(jìn)去
就可以驚喜發(fā)現(xiàn),代碼運(yùn)行成功原探。這里我們加入之前圖2-2所展示的cookie值vjkl5的值放進(jìn)去乱凿,結(jié)果如圖3-13所示:
比對(duì)2-2和2-3的cookie和vl5x參數(shù)顽素,發(fā)現(xiàn)結(jié)果正確。到此我們已經(jīng)將所需要的關(guān)鍵參數(shù)全部集齊徒蟆。
四戈抄、代碼實(shí)現(xiàn)
代碼放上來就被簡(jiǎn)書網(wǎng)管查水表了,后面會(huì)一起放在Github上后专,整理好后會(huì)貼出來划鸽。當(dāng)然這些不重要,重要的是加密的方式和解密的思路以及手段戚哎。
運(yùn)行結(jié)果如圖4-1所示:
結(jié)語
中國(guó)裁判文書網(wǎng)目前作為全球最大的裁判文書網(wǎng)站裸诽,每天面臨的訪問量也是非常巨大,反爬嚴(yán)密也是可以看出來型凳,之前也做過一次解密丈冬,不過此次反爬策略又全面更新了一次,訪問前要經(jīng)過360安域排查甘畅,文書ID做了加密埂蕊,JS混淆加密,jsfuck加密疏唾,隨機(jī)參數(shù)也做了一些修改蓄氧,下一次會(huì)給大家分享關(guān)于對(duì)裁判文書網(wǎng)文書ID加密研究的過程講解。如果大家有什么問題槐脏,歡迎一起學(xué)習(xí)探討喉童。