python試爬李毅吧貼子標題椎咧，爬蟲最初級

注：以下所有python代碼均運行于2.7.0

最近想抓點數(shù)據(jù)存起來，開始搗鼓python把介。爬蟲技術(shù)以前沒接觸過勤讽，這一回就當練手，從零開始拗踢，從最原始的方式開始脚牍。先定個小目標，抓一下著名的“李毅吧”的一些貼子標題巢墅。

要爬數(shù)據(jù)诸狭，第一步肯定是網(wǎng)絡(luò)請求，在這里主要是指get/post請求君纫。第二步是對返回的html進行解析驯遇。第三步是從解析后的DOM樹里取我們想要的東西。

在這些步驟進行之前蓄髓，要先安裝lxml叉庐，這個用pip install lxml就可以了。

第一步会喝，使用urllib2陡叠，先把李毅吧的url請求一下。百度目前使用的是https肢执，這個沒關(guān)系枉阵。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/

然后打開命令窗口，python蔚万。let's go岭妖。
import urllib2 from lxml import etree r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85") p = r.read()
好了，是不是代碼很簡短反璃，我們第一步就完成了昵慌。

第二步，要引入lxml淮蜈，來解析取到的html文件斋攀。解析前肯定是要用開發(fā)者工具先分析一下html源碼的，要不然怎么找到規(guī)律去匹配我們想要的內(nèi)容呢梧田。用開發(fā)者工具定位到貼吧的貼子都是位于一個div里面淳蔼，這個div的id是content侧蘸，class也是content。每個貼子的標題都是一個超鏈接鹉梨，標題內(nèi)容放在這個超鏈接的title里讳癌。

簡單的介紹一下lxml的路徑表達式：
//body/a[1] 取body下的第一個a元素 //a[@href] 取所有擁有屬性名為href的a元素 //a[@href='img.html'] 取所有htre屬性為img.html的a元素根據(jù)前面的分析，要取到貼子的標題存皂，需要這么寫 //div[@id='content']//a//@title
下面開始解析：
e = etree.HTML(decode_html) l = e.xpath("http://div[@id='content']//a//@title")
第二步到此為止晌坤，通過xpath能匹配到所有的貼子標題。

第三步就是數(shù)據(jù)過濾旦袋、清洗骤菠、轉(zhuǎn)換、存儲之類的工作了疤孕，沒有什么通用性商乎。因為l是一個列表，里面又存的是utf8祭阀，對于一些新手來說鹉戚，可能很抓狂，因為不能很直觀地看到漢字柬讨。
加上這一段就好了：

    print item```
最后附上代碼：

`#-*- coding: utf-8 -*-`

import urllib2
import lxml
from lxml import etree

r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")

raw_html = r.read()

decode_html = raw_html.decode("utf-8")

dom_html = etree.HTML(decode_html)

title_list = dom_html.xpath("http://div[@id='content']//a//@title")

for item in title_list:
print item

這個代碼沒有真正實現(xiàn)只抓貼子標題的功能崩瓤，抓的內(nèi)容超出了貼子標題的范圍。還需要優(yōu)化一下才可以的踩官。

![try_baidu_liyi.png](http://upload-images.jianshu.io/upload_images/5205908-e446959a38a2d768.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

最后編輯于：2017.12.07 05:52:52

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市境输，隨后出現(xiàn)的幾起案子蔗牡，更是在濱河造成了極大的恐慌，老刑警劉巖嗅剖，帶你破解...
沈念sama閱讀 217,657評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件辩越，死亡現(xiàn)場離奇詭異，居然都是意外死亡信粮，警方通過查閱死者的電腦和手機黔攒，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,889評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來强缘，“玉大人督惰，你說我怎么就攤上這事÷玫啵” “怎么了赏胚？”我有些...
開封第一講書人閱讀 164,057評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長商虐。經(jīng)常有香客問我觉阅，道長崖疤，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,509評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任典勇，我火速辦了婚禮劫哼，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘割笙。我一直安慰自己权烧，他們只是感情好，可當我...
茶點故事閱讀 67,562評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布咳蔚。她就那樣靜靜地躺著豪嚎，像睡著了一般。火紅的嫁衣襯著肌膚如雪谈火。梳的紋絲不亂的頭發(fā)上侈询，一...
開封第一講書人閱讀 51,443評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音糯耍，去河邊找鬼扔字。笑死，一個胖子當著我的面吹牛温技，可吹牛的內(nèi)容都是我干的革为。我是一名探鬼主播，決...
沈念sama閱讀 40,251評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼舵鳞，長吁一口氣：“原來是場噩夢啊……” “哼震檩！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起蜓堕，我...
開封第一講書人閱讀 39,129評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤抛虏，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后套才，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迂猴，經(jīng)...
沈念sama閱讀 45,561評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,779評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年背伴，在試婚紗的時候發(fā)現(xiàn)自己被綠了沸毁。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,902評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡傻寂，死狀恐怖息尺，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情崎逃，我是刑警寧澤掷倔，帶...
沈念sama閱讀 35,621評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站个绍，受9級特大地震影響勒葱，放射性物質(zhì)發(fā)生泄漏浪汪。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,220評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一凛虽、第九天我趴在偏房一處隱蔽的房頂上張望死遭。院中可真熱鬧，春花似錦凯旋、人聲如沸呀潭。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,838評論 0贊 22
一樁弒父案至非，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽钠署。三九已至，卻和暖如春荒椭，著一層夾襖步出監(jiān)牢的瞬間谐鼎，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,971評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工趣惠，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留狸棍，地道東北人。一個月前我還...
沈念sama閱讀 48,025評論 2贊 370
代替公主和親
正文我出身青樓味悄，卻偏偏與公主長得像草戈，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子侍瑟，可洞房花燭夜當晚...
茶點故事閱讀 44,843評論 2贊 354

python試爬李毅吧貼子標題轩褐，爬蟲最初級

python試爬李毅吧貼子標題椎咧，爬蟲最初級

推薦閱讀更多精彩內(nèi)容