數(shù)據(jù)保護和數(shù)據(jù)爬取

數(shù)據(jù)的保護和爬取好比是矛和盾矗晃。數(shù)據(jù)需要保護唤崭,但是數(shù)據(jù)產(chǎn)生之后會有大量的爬取需求丸逸。
如何實現(xiàn)數(shù)據(jù)的保護和爬取值得我們思考。

數(shù)據(jù)保護

App方面的保護

  1. 設備的注冊
  2. 設備的激活
  3. 各個數(shù)據(jù)接口的sig保護或者Json和byte的轉(zhuǎn)換
  4. 運維監(jiān)控系統(tǒng)的搭建猛蔽,監(jiān)控用戶請求異常的報警。屏蔽相關(guān)的device數(shù)據(jù)請求灵寺。

App API接口數(shù)據(jù)保護曼库。

  1. 使用https雙向驗證,保證數(shù)據(jù)不能被charles替久、fiddler凉泄、mitmproxy給攔截到。其中android可以設置noproxy防止抓包工具抓取蚯根,ios可采用https證書來保證數(shù)據(jù)的安全后众。
  2. 數(shù)據(jù)sig的保護:可以通過url地址和body串聯(lián),同時使用base64加密颅拦,并且核心加密點使用so文件或者動態(tài)庫蒂誉,在加密的過程中so和app之間雙向驗證。以android舉例距帅,核心加密方法放置在secret()方法放置在A.so文件中右锨,在apk調(diào)用A.so的secret()方法,且secret()方法中會回調(diào)apk驗證簽名是否正確碌秸。
  3. token的保護:用戶所分配的token和計算出來的sig绍移,來計算tokensig悄窃。
  4. 接口請求字段的保護:請求的api接口去除基地址外,使用sig混淆蹂窖,計算出sig3轧抗。
    通過以上的4層加密,實現(xiàn)了App數(shù)據(jù)的保護瞬测。

web數(shù)據(jù)保護

web端頁面基本上都可以看到源碼;比如是html横媚、css、js等月趟。但web端的數(shù)據(jù)也有一定的數(shù)據(jù)保護策略灯蝴。相關(guān)字段保存在cookie中

  1. web 對應的web did以及對應的sid隨機生成應對爬蟲大規(guī)模爬取數(shù)據(jù)。
  2. web打開網(wǎng)頁頻繁時彈出滑塊驗證碼孝宗,實現(xiàn)對爬蟲的攔截穷躁。其中滑塊的驗證碼才使用aes和base64通過滑塊過程計算得到相關(guān)的data,后端驗證其data的正確性。其中js部分已經(jīng)使用webpack混淆打包碳褒。
  3. web頁面核心數(shù)據(jù)使用指定的字體的加密折砸。比如粉絲關(guān)注量和收藏人數(shù)等。數(shù)字會單獨抽取為ttf字體沙峻,每次獲取該網(wǎng)頁時都會有不同的字體睦授。
    其中上述1和3都可以通過對應的腳本來還原對應的接口請求,滑塊的保護策略逆向破解需要一點時間摔寨。

數(shù)據(jù)的爬取

提到數(shù)據(jù)爬取去枷,基本上就需要采用數(shù)據(jù)保護的逆向過程。

App逆向?qū)崿F(xiàn)數(shù)據(jù)爬取

主要過程

  1. 分析android和ios app是复,抓取對應的接口請求删顶。android設備或者模擬器需要root,安裝xposed或者蒙面淑廊,實現(xiàn)ssl的突破逗余。ios設備需要越獄。
  2. android 采用的網(wǎng)絡框架基本上都是okhttp季惩;ios采用的基本上AFN录粱。
  3. 安裝jadx,分析android apk,分析接口画拾,得到加密點啥繁。
  4. 定位得到的加密點,分析url和header以及body的合并策略青抛,分析接口請求的sig旗闽。
  5. 使用xposed或者unidebug或者frida、java、python等還原url和header以及body的合并策略或者將對應的url和header以及body送入到so中适室。其中調(diào)用so文件的過程中嫡意,會有so和apk之間的雙向驗證;比如需要apk的簽名亭病。
  6. 還原設備注冊的邏輯鹅很。這個基本上對應的請求基本上都會是加密的字節(jié)流,需要使用xposed或者hook工具hook對應的方法罪帖。實現(xiàn)對應的設備注冊。
  7. 設備風控的突破:基本上到了這里基本上是最難的一步邮屁。需要使用IDA工具來定位設備注冊得到的device_id進行激活整袁;使用IDA工具調(diào)試的時候基本上都會有遇到app異常崩潰的問題,因為apk開啟了反調(diào)試的功能佑吝;防止逆向破解坐昙。

sig、設備注冊芋忿、設備激活破解完成之后炸客,APP的接口基本上就可以無限的提取數(shù)據(jù)了。但對應的得到的device_id在大批量的提取數(shù)據(jù)時戈钢,會落入運維的異常報警痹仙。當報警之后,該device_id會被封禁30分鐘-60分鐘殉了。
所以使用App大規(guī)模爬取時开仰,需要無限量的設備池子:激活的device_id。

web端數(shù)據(jù)的爬取

  1. 分析cookie薪铜,破解對應的web_device_id以及抽取隨機產(chǎn)生sid的js腳本众弓。
  2. 分析字體信息,實現(xiàn)對字體信息的動態(tài)提取隔箍。
  3. 分析滑塊驗證碼或者點擊驗證碼等核心邏輯谓娃,還原其激活過程。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蜒滩,一起剝皮案震驚了整個濱河市滨达,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌帮掉,老刑警劉巖弦悉,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蟆炊,居然都是意外死亡稽莉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進店門涩搓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來污秆,“玉大人劈猪,你說我怎么就攤上這事×计矗” “怎么了战得?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長庸推。 經(jīng)常有香客問我常侦,道長,這世上最難降的妖魔是什么贬媒? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任聋亡,我火速辦了婚禮,結(jié)果婚禮上际乘,老公的妹妹穿的比我還像新娘坡倔。我一直安慰自己,他們只是感情好脖含,可當我...
    茶點故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布罪塔。 她就那樣靜靜地躺著,像睡著了一般养葵。 火紅的嫁衣襯著肌膚如雪征堪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天港柜,我揣著相機與錄音请契,去河邊找鬼。 笑死夏醉,一個胖子當著我的面吹牛爽锥,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播畔柔,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼氯夷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了靶擦?” 一聲冷哼從身側(cè)響起腮考,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎玄捕,沒想到半個月后踩蔚,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡枚粘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年馅闽,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,991評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡福也,死狀恐怖局骤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情暴凑,我是刑警寧澤峦甩,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站现喳,受9級特大地震影響凯傲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜嗦篱,卻給世界環(huán)境...
    茶點故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一泣洞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧默色,春花似錦、人聲如沸狮腿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缘厢。三九已至吃度,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間贴硫,已是汗流浹背椿每。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留英遭,地道東北人间护。 一個月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像挖诸,于是被迫代替她去往敵國和親汁尺。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,941評論 2 355

推薦閱讀更多精彩內(nèi)容