爬蟲實戰(zhàn)——三大指數(shù)之百度指數(shù)(下)

(本人原創(chuàng)踪栋,謝絕轉(zhuǎn)載)

咳咳。图毕。豇豆哥昨天偷懶了夷都,沒給大家分享文章。予颤。太累了

今天可就不能偷懶了囤官。。繼上一篇微信指數(shù)推出來蛤虐,粉絲蹭蹭蹭的上漲党饮,心中大喜(實則竊笑,不知道多少小白又要入坑啦)哈哈驳庭。刑顺。。

今天推出第三篇饲常,百度指數(shù)蹲堂。

感謝篇:

寫這篇文章之前還是首先要感謝一些人:

@采銅謝謝老大哥給我提供的思路與提示

其次感謝@七夜的故事 謝謝老哥提供解決百度登錄的思路。贝淤。思路清晰明了柒竞,一讀就懂。

當(dāng)然還有一個最需要感謝的是我的團(tuán)隊老哥@小莊 此老哥骨骼精奇播聪,專治疑難雜癥D芊浮!

好了 正式開始犬耻!

分析篇:

百度指數(shù):百度指數(shù)搜索關(guān)鍵詞:美女(百度:想看美女,沒門V刺)

給我給我登錄枕磁,不登錄門都沒有!术吝!

好吧计济,開啟踩坑之路!排苍!

1沦寂、百度登錄。淘衙。推薦大家上github上搜索baidulogin.py (也就是我要感謝的哪位老哥提供的登錄思路传藏。)登錄可以解決了額。。

2毯侦、那么我們就開始瘋狂的搜搜(什么美女啊哭靖,波多野結(jié)衣啊、日本女優(yōu)啊侈离。试幽。∝阅耄咳咳差不多了铺坞,一個一個的來不然受不了)查到了吧,哈哈這么簡單洲胖。有日期济榨,有數(shù)據(jù)。這不正是我想要的嗎宾濒?(此時腦袋中瘋狂的想到了用fiddler抓包腿短,分析,請求绘梦,gameover)

開啟fiddler中橘忱。。卸奉。钝诚。

我找啊找。榄棵。凝颇,找到了,簡單吧疹鳄。拧略。返回值還是json(我的最愛。)咦瘪弓?不對吧垫蛆,這個返回值怎么沒有我需要的數(shù)據(jù)呢(坑來了。腺怯。袱饭。)

3、尋找我需要的數(shù)據(jù)呛占,但是返回值是一串我看不懂的代碼虑乖。等等。晾虑。我發(fā)現(xiàn)一個userIndexes_enc的值是不一樣疹味?這個是什么值呢仅叫,于是乎我在整個fiddler里面搜索關(guān)鍵字:b3ef,發(fā)現(xiàn)了

哈哈 有收獲吧佛猛,在來看看這個這個網(wǎng)頁的返回值是什么惑芭?感覺是個前端的代碼。继找∷旄看不懂(大坑)

好吧,可以先把userIndexes_enc的值拿下來婴渡,可能有用幻锁。

4、繼續(xù)尋找參數(shù)來源:

在尋找這些參數(shù)的來源時候边臼,是通過web端的代碼去解析出res和res2來獲取的哄尔,這一段得感謝@采銅老哥的解答。我成功的拿到了res 和res2柠并,我是用了execute_script這個函數(shù)去執(zhí)行腳本后拿到的(坑)

5岭接、這一段代碼有啥用呢?我也不知道臼予,主要是看不懂源代碼鸣戴,趕緊去補(bǔ)一些前端的知識(祭出我百度大法好,坑U呈啊)窄锅。。大概了解這段代碼的意思后缰雇,俺們動手了入偷。

大概的意思是一些html下圖片。(似乎懂了械哟,百度這個大坑疏之。居然用前端渲染的圖片作為返回值!O九亍锋爪!下次搜索放棄你了,還是我Google大法好E雌椤!:佑尽)

6沃呢、拿到圖片后,當(dāng)然得識別圖片上的數(shù)字啦拆挥。薄霜。(悄悄告訴大家某抓,又是一個大坑!)惰瓜,識別圖片嘛否副,簡單。崎坊。tesseract隨便搞搞就出來了备禀。∧巫幔咳咳把圖片拿下之后才發(fā)現(xiàn)是這樣的曲尸。

蒙版識別(吐。男翰。另患。。)蛾绎,不過堅持就是勝利昆箕,把數(shù)據(jù)從里面拿出來就行啦。租冠。不難不難

于是乎鹏倘,我開始了我編程的大坑路!肺稀!

編程篇:

1第股、百度登錄這塊直接參考別人得文章,耗費(fèi)的時間實際上不長(喬布斯老人家說過嘛话原,greate artist steal夕吻。https://github.com/qiyeboy/baidulogin/blob/master/baidulogin.py

這個不錯,邏輯清晰繁仁,代碼干凈涉馅,萬能的github果然不辜負(fù)我的重望)

2、獲取res黄虱、res2稚矿、res3[],實話說捻浦,獲取res和res2是最難的晤揣,想過很多辦法都沒獲取,在團(tuán)隊(奇男子的幫住下朱灿,兩行代碼解決問題昧识,在下怎么一個服字了得!5涟恰跪楞!記鬃喝ァ:他叫小莊!5榧馈B扑椤)res3[]的獲取相對要簡單的多,傳入一個時間參數(shù)池户,res和res2傳入進(jìn)去后就能獲得咏雌!

3、請求數(shù)據(jù)煞檩,獲得html的圖片处嫌,并采用切割拼接的方法獲得數(shù)據(jù)圖片(老板,上菜):

拼接渲染之后的圖片斟湃。

4熏迹、圖片識別,這塊網(wǎng)上教程太多凝赛,我就不多講注暗!

還是給大家貼一點(diǎn)福利吧(核心代碼):

ok,編程篇講完了墓猎,是不是感覺一臉悶逼捆昏。。

咦好像少了一點(diǎn)啥:

對對對1姓础F贰!結(jié)果圖:

第一章是win7下直接采集的數(shù)據(jù):

第二章是通過接口調(diào)用獲得的數(shù)據(jù):

數(shù)據(jù)截圖不完整左胞,可以對比一下寇仓,接口是調(diào)通了的。烤宙。

總結(jié)篇:

1遍烦、分析很關(guān)鍵,分析通了寫代碼就很簡單躺枕。

2服猪、從根源找起,找到需要的參數(shù)拐云,一步一步的走過來(實話說:是不是有點(diǎn)像高中數(shù)學(xué)中的證明題0罩怼!特別是反證法叉瘩。ps:俺的最愛)

3膳帕、用到的技術(shù):Python執(zhí)行js代碼的庫,selenium+phantomjs獲取cookies,圖片的切割和拼接房揭,圖像識別(像素比對)备闲。

4、在圖像識別這塊可以使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)捅暴,不過俺不會恬砂,繼續(xù)加強(qiáng)學(xué)習(xí)!本人技術(shù)比較low蓬痒,還有很多不懂的地方泻骤,知乎中的各位大神小神,文章有不妥的地方歡迎指出梧奢,也歡迎粉我狱掂,私信騷擾俺。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末亲轨,一起剝皮案震驚了整個濱河市趋惨,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌惦蚊,老刑警劉巖器虾,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蹦锋,居然都是意外死亡兆沙,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進(jìn)店門莉掂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來葛圃,“玉大人,你說我怎么就攤上這事憎妙】庹” “怎么了?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵尚氛,是天一觀的道長诀诊。 經(jīng)常有香客問我,道長阅嘶,這世上最難降的妖魔是什么属瓣? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮讯柔,結(jié)果婚禮上抡蛙,老公的妹妹穿的比我還像新娘。我一直安慰自己魂迄,他們只是感情好粗截,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著捣炬,像睡著了一般熊昌。 火紅的嫁衣襯著肌膚如雪绽榛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天婿屹,我揣著相機(jī)與錄音灭美,去河邊找鬼。 笑死昂利,一個胖子當(dāng)著我的面吹牛届腐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蜂奸,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼犁苏,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了扩所?” 一聲冷哼從身側(cè)響起围详,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎祖屏,沒想到半個月后短曾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡赐劣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年嫉拐,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片魁兼。...
    茶點(diǎn)故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡婉徘,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出咐汞,到底是詐尸還是另有隱情盖呼,我是刑警寧澤,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布化撕,位于F島的核電站几晤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏植阴。R本人自食惡果不足惜蟹瘾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望掠手。 院中可真熱鬧憾朴,春花似錦、人聲如沸喷鸽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至砾省,卻和暖如春鸡岗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背编兄。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工纤房, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人翻诉。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像捌刮,于是被迫代替她去往敵國和親碰煌。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,512評論 25 707
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫绅作、插件芦圾、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 12,029評論 4 62
  • 最棒的環(huán)節(jié)不是兩情相依的甜蜜,而是戀愛結(jié)束之后俄认,女人從單純得有些傻氣的小姑娘个少,蛻變成強(qiáng)勢獨(dú)立的女王范。一天比一天精...
    bc17021e0289閱讀 288評論 0 0
  • 這次活動工作不足的地方 1對流程沒有很嚴(yán)謹(jǐn)?shù)陌盐彰行樱诙焱砩铣燥埖臅r候有一個小朋友要先上去就讓她先走了沒有整體帶對...
    badboyjun閱讀 391評論 0 0