Python爬蟲開始篇之糗百

在寫爬蟲之前做了一些準備工作骑冗,首先學習了html及css赊瞬。接著直接上手requests和BeautifulSoup過程中遇到不少的坑。也慢慢熟悉了爬蟲的整個流程贼涩。這篇文章1號就開始寫了巧涧,工作原因中間擱置了一個星期,今天上手感覺生疏了很多遥倦,還是要多加練習谤绳。這次的作業(yè)“爬去糗事百科”,主要參考向右奔跑老師的文章。

在爬之前的準備工作:
1缩筛、首先找出頁面中數(shù)據(jù)的規(guī)律消略,頁面中發(fā)布的內(nèi)容都放在class="article block untagged mb15"標簽下


糗事百科分析.png

2、獲取每條數(shù)據(jù)中詳細的信息分布如下:


糗百單條數(shù)據(jù)分析.png

先貼一下代碼:

#! /usr/bin/python
# -*- coding:utf-8 -*-
# auther: Captain_mj

import requests
from bs4 import BeautifulSoup


user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
headers = { 'User-Agent' : user_agent} #請求頭

html = requests.get('http://www.qiushibaike.com/')
soup = BeautifulSoup(html.text)

divs = soup.select('div .article.block.untagged.mb15') #從第一層標簽定位

for div in divs:
    author = div.select('div > a > h2')

    age = div.select('div')[0].text
    print(age)


    content = div.select('a > div > span')[0].text
    print (content)


    funny = div.select('div.stats > span.stats-vote > i')[0].text
    print (funny)

    comment = div.select('div.stats > span.stats-comments > a > i')[0].text
    print (comment)



上面的代碼是老師寫的代碼瞎抛,看明白后自己寫了一遍疑俭。但是在判斷作者性別的時一直沒有判斷出來。
貼一下判斷性別的方法婿失,各位幫我看看是什么地方有誤(萬分感謝):

判斷性別.png

寫一遍下來钞艇,還有幾個問題沒有弄明白,先記錄下來(路過的朋友也幫忙指點下):
1豪硅、代碼中.text是什么作用哩照,暫時還不明白


.text的作用.png

2、soup = BeautifulSoup(html, 'lxml') #lxml懒浮,為什么這么用沒有弄明白
3飘弧、趴下來的數(shù)據(jù)不知該如何進行存儲(還在學習)
4、這里只記錄了Beautifulsoup爬出的方法砚著,現(xiàn)還沒有明白Xpath的用法
在這幾點弄明白后再繼續(xù)更新

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末次伶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子稽穆,更是在濱河造成了極大的恐慌冠王,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,744評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舌镶,死亡現(xiàn)場離奇詭異柱彻,居然都是意外死亡,警方通過查閱死者的電腦和手機餐胀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評論 3 392
  • 文/潘曉璐 我一進店門哟楷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人否灾,你說我怎么就攤上這事卖擅。” “怎么了墨技?”我有些...
    開封第一講書人閱讀 163,105評論 0 353
  • 文/不壞的土叔 我叫張陵惩阶,是天一觀的道長。 經(jīng)常有香客問我健提,道長琳猫,這世上最難降的妖魔是什么伟叛? 我笑而不...
    開封第一講書人閱讀 58,242評論 1 292
  • 正文 為了忘掉前任私痹,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘紊遵。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 67,269評論 6 389
  • 文/花漫 我一把揭開白布五督。 她就那樣靜靜地躺著矢腻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪学搜。 梳的紋絲不亂的頭發(fā)上娃善,一...
    開封第一講書人閱讀 51,215評論 1 299
  • 那天,我揣著相機與錄音瑞佩,去河邊找鬼聚磺。 笑死,一個胖子當著我的面吹牛炬丸,可吹牛的內(nèi)容都是我干的瘫寝。 我是一名探鬼主播,決...
    沈念sama閱讀 40,096評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼稠炬,長吁一口氣:“原來是場噩夢啊……” “哼焕阿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起首启,我...
    開封第一講書人閱讀 38,939評論 0 274
  • 序言:老撾萬榮一對情侶失蹤暮屡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后毅桃,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體栽惶,經(jīng)...
    沈念sama閱讀 45,354評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,573評論 2 333
  • 正文 我和宋清朗相戀三年疾嗅,在試婚紗的時候發(fā)現(xiàn)自己被綠了外厂。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,745評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡代承,死狀恐怖汁蝶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情论悴,我是刑警寧澤掖棉,帶...
    沈念sama閱讀 35,448評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站膀估,受9級特大地震影響幔亥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜察纯,卻給世界環(huán)境...
    茶點故事閱讀 41,048評論 3 327
  • 文/蒙蒙 一帕棉、第九天 我趴在偏房一處隱蔽的房頂上張望针肥。 院中可真熱鬧,春花似錦香伴、人聲如沸慰枕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽具帮。三九已至,卻和暖如春低斋,著一層夾襖步出監(jiān)牢的瞬間蜂厅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評論 1 269
  • 我被黑心中介騙來泰國打工膊畴, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留葛峻,地道東北人。 一個月前我還...
    沈念sama閱讀 47,776評論 2 369
  • 正文 我出身青樓巴比,卻偏偏與公主長得像术奖,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子轻绞,可洞房花燭夜當晚...
    茶點故事閱讀 44,652評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 在上一篇中 采记, 我們構(gòu)建了一個爬蟲, 可以通過跟蹤鏈接的方式下載我們所需的網(wǎng)頁政勃。 但是爬蟲在下載網(wǎng)頁之后又將 結(jié)果...
    楓灬葉閱讀 1,961評論 0 5
  • 聲明:本文講解的實戰(zhàn)內(nèi)容唧龄,均僅用于學習交流,請勿用于任何商業(yè)用途奸远! 一既棺、前言 強烈建議:請在電腦的陪同下,閱讀本文...
    Bruce_Szh閱讀 12,704評論 6 28
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,083評論 25 707
  • 什么是爬蟲? 如果是沒有接觸過爬蟲的人可能會有些許疑惑懒叛,爬蟲是個什么東西呢丸冕?其實爬蟲的概念很簡單,在互聯(lián)網(wǎng)時代,萬...
    SylvanasSun閱讀 5,912評論 1 11
  • 一薛窥、前言 上一篇演示了如何使用requests模塊向網(wǎng)站發(fā)送http請求胖烛,獲取到網(wǎng)頁的HTML數(shù)據(jù)。這篇來演示如何...
    阿里波特閱讀 3,018評論 8 23