python爬蟲之知乎話題精華答案

之前聽了幾堂公司的python培訓(xùn),于是要找個機(jī)會練習(xí)下区匣。

用python寫一個爬蟲馁启,爬取知乎“Python”話題下所有的精華回答。這個是這次的任務(wù)哼勇。

先貼代碼吧,因為是初學(xué)呕乎,感覺寫的很渣积担。

#coding=utf-8
import requests
from bs4 import BeautifulSoup
import time

base_url = 'https://www.zhihu.com'
add_url = '/topic/19552832/top-answers?page=1'
num = 0
pageNum = 1
bStop = False
f=open("zhihu09312","w")
headers = {
    'User-Agent' : 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/55.0.2883.87 Chrome/55.0.2883.87 Safari/537.36',
    "Referer": "http://www.zhihu.com/",
    'Host': 'www.zhihu.com',
    'rememberme': "true"
}
while(True):
    try:
        first_page = requests.request('get', base_url+ add_url,headers=headers)
        soup = BeautifulSoup(first_page.content, "lxml")
        title_list = [i.get_text() for i in soup.select("span.zg-gray-normal")]
        for i in title_list:
            if i == '下一頁':
                bStop = True
                break
        title_list = [i.get_text() for i in soup.select("textarea.content")]
        for i in title_list:
            num+=1
            print num
            print i
            f.write(str(num) + "\n")
            f.write(i.encode('utf-8') + "\n\n\n\n\n\n")
        try:
            pageNum+=1
            add_url = '/topic/19552832/top-answers?page=' + str(pageNum)
        except:
            break
        if bStop:
            break
        time.sleep(10)
    except Exception as e:
        print(e)
        break

說說遇到的坑吧:
首先,就是get請求的時候猬仁,一開始沒有加headers帝璧,爬了其他一些網(wǎng)站都是可以的,但是知乎卻顯示500錯誤湿刽。應(yīng)該是知乎對于直接ip地址訪問做了反爬機(jī)制的烁。
第二點,是下一頁的邏輯诈闺,其實這種判斷方法應(yīng)該不是最好的渴庆。總覺得程序中和字符串進(jìn)行比較來確定是否是最后一頁的容錯性很差雅镊。好在這不是客戶端代碼襟雷,只是一個腳本,要修改也是比較容易仁烹。
最后有個延遲10s耸弄,是為了防止知乎封ip。知乎貌似要求爬它數(shù)據(jù)要有10s的間隔卓缰,為了給服務(wù)器減壓吧计呈。
保存下來的答案其實是html格式的吧,直接看的話還是有點糾結(jié)征唬≌鸲#可以改成html格式查看。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鳍鸵,一起剝皮案震驚了整個濱河市苇瓣,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌偿乖,老刑警劉巖击罪,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哲嘲,死亡現(xiàn)場離奇詭異,居然都是意外死亡媳禁,警方通過查閱死者的電腦和手機(jī)眠副,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來竣稽,“玉大人囱怕,你說我怎么就攤上這事『帘穑” “怎么了娃弓?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長岛宦。 經(jīng)常有香客問我台丛,道長,這世上最難降的妖魔是什么砾肺? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任挽霉,我火速辦了婚禮,結(jié)果婚禮上变汪,老公的妹妹穿的比我還像新娘侠坎。我一直安慰自己,他們只是感情好裙盾,可當(dāng)我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布实胸。 她就那樣靜靜地躺著,像睡著了一般闷煤。 火紅的嫁衣襯著肌膚如雪童芹。 梳的紋絲不亂的頭發(fā)上涮瞻,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天鲤拿,我揣著相機(jī)與錄音,去河邊找鬼署咽。 笑死近顷,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宁否。 我是一名探鬼主播窒升,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼慕匠!你這毒婦竟也來了饱须?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤台谊,失蹤者是張志新(化名)和其女友劉穎蓉媳,沒想到半個月后譬挚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡酪呻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年减宣,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片玩荠。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡漆腌,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出阶冈,到底是詐尸還是另有隱情闷尿,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布眼溶,位于F島的核電站悠砚,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏堂飞。R本人自食惡果不足惜灌旧,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望绰筛。 院中可真熱鬧枢泰,春花似錦、人聲如沸铝噩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽骏庸。三九已至毛甲,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間具被,已是汗流浹背玻募。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留一姿,地道東北人七咧。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像叮叹,于是被迫代替她去往敵國和親艾栋。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容