用PyQuery寫爬蟲爬取新聞

爬蟲

網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則袜匿,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本豺型。

法律責(zé)任

爬蟲禁止爬取個(gè)人隱私數(shù)據(jù)和明確禁止他人訪問的數(shù)據(jù),甚至涉及版權(quán)保護(hù)的內(nèi)容都不允許爬取后隨意轉(zhuǎn)載或者用于商業(yè)用途饼齿。

通過查看網(wǎng)站主頁的robots.txt文檔饲漾。判斷網(wǎng)頁內(nèi)容是否可以爬取。

以百度為例:
http://baidu.com/robots.txt
可以查看里面有哪些內(nèi)容不允許爬取缕溉。

robots.txt

入門技術(shù)

需要事先了解計(jì)算機(jī)網(wǎng)絡(luò)(HTTP考传,Web,URL证鸥,URI)等網(wǎng)絡(luò)知識(shí)僚楞;
了解HTML中的tag, elements, attribute以及CSS,JavaScript ,DOM,JSON, Chrome瀏覽器的調(diào)試等 枉层;

爬蟲的一般步驟

  1. 選擇數(shù)據(jù)源泉褐,并查看是否允許爬取
  2. 創(chuàng)建爬蟲規(guī)則
  3. 分析網(wǎng)頁的結(jié)構(gòu)和要爬取的內(nèi)容
  4. 解析關(guān)鍵數(shù)據(jù):可以通過CSS Selector正則表達(dá)式查找
  5. 保存爬取的文件信息

如何用pyquery爬取新聞內(nèi)容

這里以pyquery為例,爬取人民網(wǎng)新聞數(shù)據(jù):

  1. 首先需要安裝pyquery
    pip3 install pyquery(可以使用開源鏡像安裝)

  2. 打開人民網(wǎng)時(shí)政新聞鸟蜡,我們需要爬取該頁面的新聞數(shù)據(jù)膜赃。

    image.png

  3. 使用Chrome瀏覽器按F12,選取需要爬取的新聞揉忘,并記錄selector跳座,如下圖所示:

需要爬取的新聞
拷貝當(dāng)前的selector
  1. 對(duì)于新聞的正文內(nèi)容,我們點(diǎn)開查看詳細(xì)的URL:
    http://politics.people.com.cn/n1/2020/0212/c1001-31583728.html泣矛,可以發(fā)現(xiàn)網(wǎng)站的前綴依然是http://politics.people.com.cn/疲眷,后綴是我們上圖中href中的鏈接。
    我們可以對(duì)其進(jìn)行拼接然后跳轉(zhuǎn)到詳細(xì)信息頁面您朽。

  2. 現(xiàn)在對(duì)我們的新聞內(nèi)容進(jìn)行爬取狂丝,這里采用ID的形式對(duì)頁面內(nèi)容進(jìn)行查找,對(duì)當(dāng)前頁面的id進(jìn)行記錄哗总。

新聞?wù)?/div>
  1. 現(xiàn)在我們根據(jù)元素的id編寫爬蟲代碼進(jìn)行實(shí)驗(yàn)
def handler():
    # 設(shè)置需要爬取的網(wǎng)站地址
    response = urllib.request.urlopen('http://politics.people.com.cn/')
    code = response.code
    # 打開當(dāng)前路徑下的news.txt文件几颜,以追加的方式對(duì)信息進(jìn)行存儲(chǔ)
    fw = open('./news.txt', 'a')
    if code == 200:
        # http請(qǐng)求返回200表示請(qǐng)求成功
        print("*****請(qǐng)求成功,開始爬蟲*****")
        # 設(shè)置文本的編碼方式為GBK編碼
        content = response.read().decode('gbk')
        # print(content) # 打印網(wǎng)頁的全部信息
        doc = pq(content)
        # 爬取10條新聞
        for i in range(1, 11):
            # 通過F12魂奥,查找要爬取信息的selector菠剩,通過觀察我們將要爬取的10條信息的id傳入selector中進(jìn)行遍歷爬取
            element = doc('body > div.w1000.mt20.column_2.p9_con > div.left.w655 > div:nth-child(3) > div:nth-child({}) > div > h5 > a'.format(i))
            # 獲取新聞標(biāo)題
            title = element.text()
            print(title)
            # 獲取新聞鏈接
            link = element.attr('href')
            # 轉(zhuǎn)入新聞詳細(xì)信息頁面
            detail_response = urllib.request.urlopen('http://politics.people.com.cn' + link)
            # 新聞信息編碼為GBK
            detail_content = detail_response.read().decode('gbk')
            detail_doc = pq(detail_content)
            # 獲取id為'#rwb_zw'的div,即正文耻煤,也可以通過selector進(jìn)行選擇,同時(shí)去掉新聞中的換行符具壮,方便存儲(chǔ)查看
            detail = detail_doc('#rwb_zw').text().replace("\n", "")
            print(detail)
            fw.write(title + '@@@' + detail + "\n")
    # 記得關(guān)閉文件
    fw.close()

參考文檔

pyquery

開源代碼

Handler.py

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末准颓,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子棺妓,更是在濱河造成了極大的恐慌攘已,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怜跑,死亡現(xiàn)場離奇詭異样勃,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)性芬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門峡眶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人植锉,你說我怎么就攤上這事辫樱。” “怎么了俊庇?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵狮暑,是天一觀的道長。 經(jīng)常有香客問我辉饱,道長搬男,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任彭沼,我火速辦了婚禮缔逛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘溜腐。我一直安慰自己译株,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布挺益。 她就那樣靜靜地躺著,像睡著了一般乘寒。 火紅的嫁衣襯著肌膚如雪望众。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天伞辛,我揣著相機(jī)與錄音烂翰,去河邊找鬼。 笑死蚤氏,一個(gè)胖子當(dāng)著我的面吹牛甘耿,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播竿滨,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼佳恬,長吁一口氣:“原來是場噩夢啊……” “哼捏境!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起毁葱,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤垫言,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后倾剿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體筷频,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年前痘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凛捏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡芹缔,死狀恐怖葵袭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情乖菱,我是刑警寧澤坡锡,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站窒所,受9級(jí)特大地震影響鹉勒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜吵取,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一禽额、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧皮官,春花似錦脯倒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至摄乒,卻和暖如春悠反,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背馍佑。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國打工斋否, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拭荤。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓茵臭,卻偏偏與公主長得像,于是被迫代替她去往敵國和親舅世。 傳聞我的和親對(duì)象是個(gè)殘疾皇子旦委,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345