爬蟲
網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則袜匿,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本豺型。
法律責(zé)任
爬蟲禁止爬取個(gè)人隱私數(shù)據(jù)和明確禁止他人訪問的數(shù)據(jù),甚至涉及版權(quán)保護(hù)的內(nèi)容都不允許爬取后隨意轉(zhuǎn)載或者用于商業(yè)用途饼齿。
通過查看網(wǎng)站主頁的robots.txt文檔饲漾。判斷網(wǎng)頁內(nèi)容是否可以爬取。
以百度為例:
http://baidu.com/robots.txt
可以查看里面有哪些內(nèi)容不允許爬取缕溉。
入門技術(shù)
需要事先了解計(jì)算機(jī)網(wǎng)絡(luò)(HTTP考传,Web,URL证鸥,URI)等網(wǎng)絡(luò)知識(shí)僚楞;
了解HTML中的tag, elements, attribute以及CSS,JavaScript ,DOM,JSON, Chrome瀏覽器的調(diào)試等 枉层;
爬蟲的一般步驟
- 選擇數(shù)據(jù)源泉褐,并查看是否允許爬取
- 創(chuàng)建爬蟲規(guī)則
- 分析網(wǎng)頁的結(jié)構(gòu)和要爬取的內(nèi)容
- 解析關(guān)鍵數(shù)據(jù):可以通過CSS Selector正則表達(dá)式查找
- 保存爬取的文件信息
如何用pyquery爬取新聞內(nèi)容
這里以pyquery為例,爬取人民網(wǎng)新聞數(shù)據(jù):
首先需要安裝pyquery
pip3 install pyquery(可以使用開源鏡像安裝)-
打開人民網(wǎng)時(shí)政新聞鸟蜡,我們需要爬取該頁面的新聞數(shù)據(jù)膜赃。
使用Chrome瀏覽器按F12,選取需要爬取的新聞揉忘,并記錄selector跳座,如下圖所示:
對(duì)于新聞的正文內(nèi)容,我們點(diǎn)開查看詳細(xì)的URL:
http://politics.people.com.cn/n1/2020/0212/c1001-31583728.html泣矛,可以發(fā)現(xiàn)網(wǎng)站的前綴依然是http://politics.people.com.cn/疲眷,后綴是我們上圖中href中的鏈接。
我們可以對(duì)其進(jìn)行拼接然后跳轉(zhuǎn)到詳細(xì)信息頁面您朽。現(xiàn)在對(duì)我們的新聞內(nèi)容進(jìn)行爬取狂丝,這里采用ID的形式對(duì)頁面內(nèi)容進(jìn)行查找,對(duì)當(dāng)前頁面的id進(jìn)行記錄哗总。
- 現(xiàn)在我們根據(jù)元素的id編寫爬蟲代碼進(jìn)行實(shí)驗(yàn)
def handler():
# 設(shè)置需要爬取的網(wǎng)站地址
response = urllib.request.urlopen('http://politics.people.com.cn/')
code = response.code
# 打開當(dāng)前路徑下的news.txt文件几颜,以追加的方式對(duì)信息進(jìn)行存儲(chǔ)
fw = open('./news.txt', 'a')
if code == 200:
# http請(qǐng)求返回200表示請(qǐng)求成功
print("*****請(qǐng)求成功,開始爬蟲*****")
# 設(shè)置文本的編碼方式為GBK編碼
content = response.read().decode('gbk')
# print(content) # 打印網(wǎng)頁的全部信息
doc = pq(content)
# 爬取10條新聞
for i in range(1, 11):
# 通過F12魂奥,查找要爬取信息的selector菠剩,通過觀察我們將要爬取的10條信息的id傳入selector中進(jìn)行遍歷爬取
element = doc('body > div.w1000.mt20.column_2.p9_con > div.left.w655 > div:nth-child(3) > div:nth-child({}) > div > h5 > a'.format(i))
# 獲取新聞標(biāo)題
title = element.text()
print(title)
# 獲取新聞鏈接
link = element.attr('href')
# 轉(zhuǎn)入新聞詳細(xì)信息頁面
detail_response = urllib.request.urlopen('http://politics.people.com.cn' + link)
# 新聞信息編碼為GBK
detail_content = detail_response.read().decode('gbk')
detail_doc = pq(detail_content)
# 獲取id為'#rwb_zw'的div,即正文耻煤,也可以通過selector進(jìn)行選擇,同時(shí)去掉新聞中的換行符具壮,方便存儲(chǔ)查看
detail = detail_doc('#rwb_zw').text().replace("\n", "")
print(detail)
fw.write(title + '@@@' + detail + "\n")
# 記得關(guān)閉文件
fw.close()
參考文檔
開源代碼
- 文/潘曉璐 我一進(jìn)店門峡眶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人植锉,你說我怎么就攤上這事辫樱。” “怎么了俊庇?”我有些...
- 文/不壞的土叔 我叫張陵狮暑,是天一觀的道長。 經(jīng)常有香客問我辉饱,道長搬男,這世上最難降的妖魔是什么? 我笑而不...
- 正文 為了忘掉前任彭沼,我火速辦了婚禮缔逛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘溜腐。我一直安慰自己译株,他們只是感情好,可當(dāng)我...
- 文/花漫 我一把揭開白布挺益。 她就那樣靜靜地躺著,像睡著了一般乘寒。 火紅的嫁衣襯著肌膚如雪望众。 梳的紋絲不亂的頭發(fā)上,一...
- 文/蒼蘭香墨 我猛地睜開眼佳恬,長吁一口氣:“原來是場噩夢啊……” “哼捏境!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起毁葱,我...
- 序言:老撾萬榮一對(duì)情侶失蹤垫言,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后倾剿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體筷频,經(jīng)...
- 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
- 正文 我和宋清朗相戀三年前痘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凛捏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
- 正文 年R本政府宣布,位于F島的核電站窒所,受9級(jí)特大地震影響鹉勒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜吵取,卻給世界環(huán)境...
- 文/蒙蒙 一禽额、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧皮官,春花似錦脯倒、人聲如沸。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至摄乒,卻和暖如春悠反,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背馍佑。 一陣腳步聲響...
- 正文 我出身青樓茵臭,卻偏偏與公主長得像,于是被迫代替她去往敵國和親舅世。 傳聞我的和親對(duì)象是個(gè)殘疾皇子旦委,可洞房花燭夜當(dāng)晚...