爬取糗事百科基本信息

艾瑪花盐，補(bǔ)作業(yè)啊補(bǔ)作業(yè)。迫不及待的進(jìn)入到爬數(shù)據(jù)階段菇爪，這時(shí)候真的是發(fā)現(xiàn)條條大路通羅馬算芯，想抓個(gè)數(shù)據(jù)方法是在是太多了。第一個(gè)簡(jiǎn)單的爬蟲(chóng)折騰了一個(gè)下午凳宙，Mark一下熙揍。

作業(yè)題目：

爬取糗百 http://www.qiushibaike.com/text/
包括：作者，性別氏涩，年齡届囚，段子內(nèi)容有梆，好笑數(shù)，評(píng)論數(shù)

對(duì)于一個(gè)爬蟲(chóng)來(lái)說(shuō)意系，我們先理解清楚最小系統(tǒng)：

Url管理器

HTML下載器
HTML解析器

1.URL管理器比較好理解泥耀，頁(yè)面中存在鏈接套鏈接，只有這樣我們的小爬蟲(chóng)才能發(fā)揮巨大作用蛔添，我們需要把所有的url進(jìn)行管理痰催，去除重復(fù)的url，還有一些高階提高效率的功能迎瞧。
2.HTML下載器夸溶，大約就是模擬瀏覽器去請(qǐng)求需要訪問(wèn)的頁(yè)面，存放在本地凶硅。
3.HTML解析器缝裁，就是把請(qǐng)求下來(lái)的HTML數(shù)據(jù)進(jìn)行分析，獲取自己想要的有效數(shù)據(jù)咏尝。

OK压语，大約就是這個(gè)套路，開(kāi)始爬坑~~~
老規(guī)矩编检，直接上代碼：

import urllib2
import bs4

from bs4 import BeautifulSoup

url = 'http://www.qiushibaike.com'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
headers = {'User-Agent':user_agent}

#enter headers
request = urllib2.Request(url, headers=headers)
response = urllib2.urlopen(request).read()
# print response.decode('utf-8').encode('gbk')

#create beautiful soap object
soup = BeautifulSoup(response, 'lxml')
for link in soup.find_all('div', class_='article block untagged mb15'):
    # 
    print 'author : %s'%link.find('h2').text
    # print 'gender : %s'%link.select('.articleGender')
    # <div class="articleGender womenIcon">22</div>
    print 'age : %s'%link.find('div',class_='articleGender').text
    #fun number 
    print 'fun number : %s'%link.select('div.stats > span.stats-vote > i')[0].text
    # comments num
    print 'comments num : %s'%link.select('div.stats > span.stats-comments > a > i')[0].text
    # content
    print 'content : %s \n'%link.select('a > div.content > span')[0].text

小白就是小白胎食，一開(kāi)始報(bào)這個(gè)錯(cuò)：

url format problem

我天真的不把url帶協(xié)議頭，就丟到了urllib2.request()當(dāng)中去了允懂，記得要帶著http://

下面這個(gè)問(wèn)題厕怜，貌似是比較常見(jiàn)的，我請(qǐng)求baidu的時(shí)候沒(méi)有個(gè)問(wèn)題蕾总，但是糗百就不行粥航。還是得偽裝一下，各種網(wǎng)站都應(yīng)該會(huì)防止這樣的爬數(shù)據(jù)行為生百，所以以后的hack行為還是得高級(jí)一些递雀。

User-agent problem

user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
headers = {'User-Agent':user_agent}

再來(lái)就是顯示中文亂碼問(wèn)題，電腦開(kāi)不動(dòng)虛擬機(jī)了蚀浆，又買不起MAC缀程。win做開(kāi)發(fā)真的不喜歡。

 print response.decode('utf-8').encode('gbk')
#來(lái)回倒一下編碼方式咯市俊，費(fèi)勁的很

關(guān)鍵的地方就是解析這下載下來(lái)的HTML內(nèi)容杨凑，BS4就是利用DOM的結(jié)構(gòu)，一層層的剝開(kāi)摆昧，找到有效數(shù)據(jù)的規(guī)律撩满。

soup = BeautifulSoup(response, 'lxml')
for link in soup.find_all('div', class_='article block untagged mb15'):
    # 
    print 'author : %s'%link.find('h2').text
    # print 'gender : %s'%link.select('.articleGender')
    # <div class="articleGender womenIcon">22</div>
    print 'age : %s'%link.find('div',class_='articleGender').text
    #fun number 
    print 'fun number : %s'%link.select('div.stats > span.stats-vote > i')[0].text
    # comments num
    print 'comments num : %s'%link.select('div.stats > span.stats-comments > a > i')[0].text
    # content
    print 'content : %s \n'%link.select('a > div.content > span')[0].text

這個(gè)里面各種小技巧，針對(duì)不同的特點(diǎn)的數(shù)據(jù)使用不同判斷方法，思路就是找出規(guī)律定位數(shù)據(jù)伺帘。

總結(jié)一下

啊~~~~真心不容易昭躺，總的來(lái)說(shuō)，還是利用Beautiful Soup4把一些基礎(chǔ)的數(shù)據(jù)爬出來(lái)的曼追。但是也僅限于了解最基本的原理窍仰。后面還有很多的路要走。
明天還有一天休息礼殊，真心謝謝屈原（其實(shí)叫羋原驹吮，楚國(guó)人大多都是姓這個(gè)）
明天打算把爬簡(jiǎn)書(shū)的任務(wù)做了，學(xué)一些正則晶伦，用一下Xpath碟狞。
另外還有最好把代碼重構(gòu)為面向?qū)ο蟮姆绞健T T婚陪，好多事情族沃，加油啦。

最后編輯于：2017.12.07 22:33:59

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末泌参，一起剝皮案震驚了整個(gè)濱河市脆淹，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌沽一，老刑警劉巖盖溺，帶你破解...
沈念sama閱讀 222,590評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異铣缠，居然都是意外死亡烘嘱，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,157評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門蝗蛙，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蝇庭，“玉大人，你說(shuō)我怎么就攤上這事捡硅∠冢” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 169,301評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵壮韭，是天一觀的道長(zhǎng)北发。經(jīng)常有香客問(wèn)我，道長(zhǎng)泰涂，這世上最難降的妖魔是什么鲫竞？我笑而不...
開(kāi)封第一講書(shū)人閱讀 60,078評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任辐怕，我火速辦了婚禮逼蒙，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘寄疏。我一直安慰自己是牢，他們只是感情好僵井，可當(dāng)我...
茶點(diǎn)故事閱讀 69,082評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著驳棱，像睡著了一般批什。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上社搅，一...
開(kāi)封第一講書(shū)人閱讀 52,682評(píng)論 1贊 312
城市分裂傳說(shuō)
那天驻债，我揣著相機(jī)與錄音，去河邊找鬼形葬。笑死合呐，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的笙以。我是一名探鬼主播淌实，決...
沈念sama閱讀 41,155評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼猖腕！你這毒婦竟也來(lái)了拆祈？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 40,098評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤倘感，失蹤者是張志新（化名）和其女友劉穎放坏，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體侠仇，經(jīng)...
沈念sama閱讀 46,638評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡轻姿，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,701評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逻炊。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片互亮。...
茶點(diǎn)故事閱讀 40,852評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖余素，靈堂內(nèi)的尸體忽然破棺而出豹休，到底是詐尸還是另有隱情，我是刑警寧澤桨吊，帶...
沈念sama閱讀 36,520評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布威根，位于F島的核電站，受9級(jí)特大地震影響视乐，放射性物質(zhì)發(fā)生泄漏洛搀。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,181評(píng)論 3贊 335
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一佑淀、第九天我趴在偏房一處隱蔽的房頂上張望留美。院中可真熱鬧，春花似錦、人聲如沸谎砾。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,674評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)景图。三九已至较雕，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間挚币，已是汗流浹背亮蒋。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,788評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留妆毕，地道東北人宛蚓。一個(gè)月前我還...
沈念sama閱讀 49,279評(píng)論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像设塔，于是被迫代替她去往敵國(guó)和親凄吏。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,851評(píng)論 2贊 361

爬取糗事百科基本信息

作業(yè)題目：

總結(jié)一下

推薦閱讀更多精彩內(nèi)容