python知乎爬蟲(最新)

環(huán)境:python3.x
外部依賴包:requests
github項目地址

主要的問題:模擬登陸:

知乎現(xiàn)在改用https請求了扒接,數(shù)據(jù)加密敛劝,但是問題不大,重要的是網(wǎng)頁數(shù)據(jù)改動了,而且在請求時后臺會對爬蟲做一些判斷,因此在每次請求是都需要加上request header哮笆,盡可能接近瀏覽器請求的樣子来颤。

言歸正傳

登陸的數(shù)據(jù)依舊沒變動

a.png

通過chrome開發(fā)者工具可以了解到。

但是有時候需要用到驗證碼疟呐,所以脚曾,我的爬蟲直接下載驗證碼到本地,想要嘗試驗證碼自動識別的同學(xué)启具,可以移步我另一篇文章簡單驗證碼識別本讥,雖然那篇文章只講數(shù)字驗證碼的識別,但是基本思想是一樣的(不過知乎目前的驗證碼識別有點難度了)鲁冯。

_xsrf這個數(shù)據(jù)在登陸網(wǎng)頁上可以找到拷沸,雖然發(fā)生了變動,但是依然可以通過正則找出來薯演。

登陸函數(shù)大概是這樣的:

Paste_Image.png

函數(shù)初次登陸撞芍,需要賬號和密碼,之后跨扮,程序會自動記錄一個cookie文件序无,在當(dāng)前文件夾下,下次運行程序就不需要再輸入密碼和賬號了衡创,讀寫cookie文件的程序大概是這樣:

Paste_Image.png
from python_zhihu import ZhiHu

zh=ZhiHu()

//下載某個問題下的高贊答案:
zh.get_answer_text('某問題的url')
//這個方法會下載某個問題下的高贊文字答案帝嗡,存儲在一個txt文件中


//下載某個問題下所有的圖片:
zh.get_answer_img('某問題的url')
// 這個方法會下載某個問題下的答案中的所有圖片,并且按照回答人的昵稱歸類

目前更新只是保證正常的爬取知乎璃氢,后期可能會加上更多功能,敬請期待....

star,please......

源碼:https://github.com/ladingwu/python_zhihu

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末哟玷,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子一也,更是在濱河造成了極大的恐慌巢寡,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件椰苟,死亡現(xiàn)場離奇詭異抑月,居然都是意外死亡,警方通過查閱死者的電腦和手機尊剔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門爪幻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人须误,你說我怎么就攤上這事挨稿。” “怎么了京痢?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵奶甘,是天一觀的道長。 經(jīng)常有香客問我祭椰,道長臭家,這世上最難降的妖魔是什么疲陕? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮钉赁,結(jié)果婚禮上蹄殃,老公的妹妹穿的比我還像新娘。我一直安慰自己你踩,他們只是感情好诅岩,可當(dāng)我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著带膜,像睡著了一般吩谦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上膝藕,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天式廷,我揣著相機與錄音,去河邊找鬼芭挽。 笑死滑废,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的袜爪。 我是一名探鬼主播策严,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼饿敲!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起逛绵,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤怀各,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后术浪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瓢对,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年胰苏,在試婚紗的時候發(fā)現(xiàn)自己被綠了硕蛹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡硕并,死狀恐怖法焰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情倔毙,我是刑警寧澤埃仪,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站陕赃,受9級特大地震影響卵蛉,放射性物質(zhì)發(fā)生泄漏颁股。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一傻丝、第九天 我趴在偏房一處隱蔽的房頂上張望甘有。 院中可真熱鬧,春花似錦葡缰、人聲如沸亏掀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽幌氮。三九已至,卻和暖如春胁澳,著一層夾襖步出監(jiān)牢的瞬間该互,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工韭畸, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留颂斜,地道東北人。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓何缓,卻偏偏與公主長得像腊瑟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子锦庸,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,180評論 25 707
  • 知乎已經(jīng)成為了爬蟲的訓(xùn)練場机蔗,本文利用Python中的requests庫,模擬登陸知乎甘萧,獲取cookie萝嘁,保存到本地...
    DayDayUpppppp閱讀 13,513評論 5 22
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)扬卷,斷路器牙言,智...
    卡卡羅2017閱讀 134,665評論 18 139
  • 1 什么是軟件架構(gòu) 如下是幾個對軟件架構(gòu)的理解: 應(yīng)用軟件架構(gòu)(architecture)是指一個過程,在這個過程...
    貘鳴閱讀 551評論 0 0
  • 阿一妹八個半月怪得,誰都可以抱咱枉,誰抱都不哭,這不徒恋,第一次見波叔就老蹭著要他抱蚕断,完全沒有違和感。 波叔自詡到:我從來都是...
    法門蘿莉閱讀 270評論 0 0