Python爬蟲——網(wǎng)頁數(shù)據(jù)抓取入門教學(xué)

簡(jiǎn)介

網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛侧啼，網(wǎng)絡(luò)機(jī)器人卑惜，在FOAF社區(qū)中間蜀变，更經(jīng)常的稱為網(wǎng)頁追逐者）：
是一種按照一定的規(guī)則沟堡，自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本侧但。另外一些不常使用的名字還有螞蟻、自動(dòng)索引航罗、模擬程序或者蠕蟲禀横。其實(shí)通俗的講就是通過程序去獲取web頁面上自己想要的數(shù)據(jù)，也就是自動(dòng)抓取數(shù)據(jù)粥血。
爬蟲可以做什么柏锄？
你可以用爬蟲爬圖片，爬取視頻等等你想要爬取的數(shù)據(jù)复亏，只要你能通過瀏覽器訪問的數(shù)據(jù)都可以通過爬蟲獲取趾娃。當(dāng)你在瀏覽器中輸入地址后，經(jīng)過DNS服務(wù)器找到服務(wù)器主機(jī)缔御，向服務(wù)器發(fā)送一個(gè)請(qǐng)求抬闷，服務(wù)器經(jīng)過解析后發(fā)送給用戶瀏覽器結(jié)果，包括html,js,css等文件內(nèi)容，瀏覽器解析出來最后呈現(xiàn)給用戶在瀏覽器上看到的結(jié)果
所以用戶看到的瀏覽器的結(jié)果就是由HTML代碼構(gòu)成的笤成，我們爬蟲就是為了獲取這些內(nèi)容评架，通過分析和過濾html代碼，從中獲取我們想要資源炕泳。

頁面獲取

1）根據(jù)URL獲取網(wǎng)頁

URL處理模塊（庫）
import urllib.request as req
創(chuàng)建一個(gè)表示遠(yuǎn)程url的類文件對(duì)象
req.urlopen(' ')
如同本地文件一樣讀取內(nèi)容

import urllib.request as req
# 根據(jù)URL獲取網(wǎng)頁：
# http://www.hnpolice.com/
url = 'http://www.hnpolice.com/'
webpage = req.urlopen(url) # 按照類文件的方式打開網(wǎng)頁
# 讀取網(wǎng)頁的所有數(shù)據(jù),并轉(zhuǎn)換為uft-8編碼
data = webpage.read().decode('utf-8')
print(data)

2）網(wǎng)頁數(shù)據(jù)存入文件

# 將讀取的網(wǎng)頁數(shù)據(jù)寫入文件：
outfile = open("enrollnudt.txt", 'w') # 打開文件
outfile.write(data) # 將網(wǎng)頁數(shù)據(jù)寫入文件
outfile.close()

此時(shí)我們從網(wǎng)頁中獲取的數(shù)據(jù)已保存在我們指定的文件里纵诞，如下圖

網(wǎng)頁獲取

從圖中可以看出，網(wǎng)頁的所有數(shù)據(jù)都存到了本地培遵，但是我們需要的數(shù)據(jù)大部分都是文字或者數(shù)字信息浙芙，而代碼對(duì)我們來說并沒有用處。那么我們接下來要做的是清除沒用的數(shù)據(jù)荤懂。（在這里我將獲取警院新聞中的內(nèi)容）

3）提取內(nèi)容

分析網(wǎng)頁茁裙，尋找所需要的內(nèi)容“警院新聞”
內(nèi)容范圍
- <li><a href="show.aspx?id=24797&cid=153" target="_blank"> ...</div>
如何將表格中的內(nèi)容都提取出來？
- 導(dǎo)入re包（正規(guī)表達(dá)式包）
  import re
  re.findall (pattern, string [, flags] )
- 以列表的形式返回string里匹配pattern的不重疊
  的子串
  - string會(huì)被從左到右依次掃描节仿，返回的列表也是從左到右
    一次匹配到的
- 如果pattern里含有組的話晤锥，那么會(huì)返回匹配到的
  組的列表
  
  正規(guī)表達(dá)式
匹配使用正規(guī)表達(dá)式
'<li><a href="show.aspx?id=24797&cid=153" target="_blank">(.*?)</div>'
數(shù)據(jù)清洗

數(shù)據(jù)前后清洗x.strip()
數(shù)據(jù)內(nèi)部清洗x.replace('  ', '')

至此，所需的內(nèi)容已經(jīng)獲取到本地廊宪，爬蟲基本完成矾瘾。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市箭启，隨后出現(xiàn)的幾起案子壕翩，更是在濱河造成了極大的恐慌，老刑警劉巖傅寡，帶你破解...
沈念sama閱讀 206,214評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件放妈，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡荐操，警方通過查閱死者的電腦和手機(jī)芜抒，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來托启，“玉大人宅倒，你說我怎么就攤上這事⊥退剩” “怎么了拐迁？”我有些...
開封第一講書人閱讀 152,543評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)疗绣。經(jīng)常有香客問我线召，道長(zhǎng)，這世上最難降的妖魔是什么多矮？我笑而不...
開封第一講書人閱讀 55,221評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任缓淹，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘割卖。我一直安慰自己，他們只是感情好患雏，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布鹏溯。她就那樣靜靜地躺著，像睡著了一般淹仑。火紅的嫁衣襯著肌膚如雪丙挽。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,007評(píng)論 1贊 284
城市分裂傳說
那天匀借，我揣著相機(jī)與錄音颜阐，去河邊找鬼。笑死吓肋，一個(gè)胖子當(dāng)著我的面吹牛凳怨，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播是鬼，決...
沈念sama閱讀 38,313評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼肤舞，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了均蜜？” 一聲冷哼從身側(cè)響起李剖，我...
開封第一講書人閱讀 36,956評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎囤耳，沒想到半個(gè)月后篙顺，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,441評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡充择，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年德玫，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片聪铺。...
茶點(diǎn)故事閱讀 38,018評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡化焕，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出铃剔，到底是詐尸還是另有隱情撒桨，我是刑警寧澤，帶...
沈念sama閱讀 33,685評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布键兜，位于F島的核電站凤类，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏普气。R本人自食惡果不足惜谜疤，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧夷磕，春花似錦履肃、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,240評(píng)論 0贊 19
一樁弒父案尺棋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至绵跷，卻和暖如春膘螟，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背碾局。一陣腳步聲響...
開封第一講書人閱讀 31,464評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來泰國(guó)打工荆残，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人净当。一個(gè)月前我還...
沈念sama閱讀 45,467評(píng)論 2贊 352
代替公主和親
正文我出身青樓内斯，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親蚯瞧。傳聞我的和親對(duì)象是個(gè)殘疾皇子嘿期，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評(píng)論 2贊 345

Python爬蟲——網(wǎng)頁數(shù)據(jù)抓取入門教學(xué)

簡(jiǎn)介

頁面獲取

推薦閱讀更多精彩內(nèi)容