Python: 爬取盜墓筆記

之前使用爬蟲赖舟,主要是requests+BeautifulSoup組合提茁,但是在實際使用中骂蓖,又發(fā)現(xiàn)一個利器lxml帆精。尤其是在讀了Scrape the web using CSS Selectors in Python之后,更想試試它了摹恨。

這次的目標(biāo)是盜墓筆記筋岛,其實有很多網(wǎng)站有這個小說,但是這個網(wǎng)站的HTML布局比較簡單晒哄,很適合下手爬睁宰。

使用Chrome打開盜墓筆記網(wǎng)站,選中第一章寝凌,開始inspect:

Paste_Image.png

很容易看出css是

("#content > div.container > ul > li > a")

然后下面使用lxml對第一章爬正文柒傻。類似的操作

Paste_Image.png

這里的css是

("#content > div.post_entry")

在這里也是我棄用BS而使用lxml的主要原因,使用同樣的css较木,BS就拿不到內(nèi)容红符。

這里需要注意的是,這個頁面的編碼是ISO-8859-1伐债,我們在讀取的內(nèi)容要進行解碼:

content.encode('ISO-8859-1', 'ignore').decode('utf-8')

最好可以把得到的內(nèi)容寫到txt文件中预侯,發(fā)給自己的kindle。
簡單代碼如下:

#!usr/bin/env  
# -*-coding:utf-8 -*-
import requests
import os
import sys
import lxml.html

from bs4 import BeautifulSoup as BS
from lxml.cssselect import CSSSelector

reload(sys)
sys.setdefaultencoding( "utf-8" )

sub_folder = os.path.join(os.getcwd(), "daomubiji")
if not os.path.exists(sub_folder):
    os.mkdir(sub_folder)

proxies = {
  "http": "http://proxy.yourcompany.com:8080/",
  "https": "https://proxy.yourcompany.com:8080/",
}

base_url = 'http://www.nanpaisanshu.org/daomubiji'
r = requests.get(base_url, proxies=proxies)

soup = BS(r.text, "lxml")
url_lists = soup.select("#content > div.container > ul > li > a")
print url_lists[0].get("href")

first_chapter = 'http://www.nanpaisanshu.org/4355.html'

r = requests.get(first_chapter, proxies=proxies)
print r.encoding

soup = BS(r.text.encode('ISO-8859-1', 'ignore').decode('utf-8'), "lxml")
content_lists = soup.select("#content > div.post_entry")
print "Use Requests: ", url_lists[0].get_text().encode('ISO-8859-1', 'ignore').decode('utf-8')


#
first_chapter_url = 'http://www.nanpaisanshu.org/4355.html'
r = requests.get(first_chapter_url, proxies=proxies)
print r.encoding
# build the DOM Tree
tree = lxml.html.fromstring(r.text)
 # print the parsed DOM Tree
# print lxml.html.tostring(tree)
#

sel_of_title = CSSSelector('#content > div.post > div.post_title > h2')
results = sel_of_title(tree)
match = results[0]
title = match.text.strip().encode('ISO-8859-1', 'ignore').decode('utf-8')
print "title: ", title
filename = sub_folder + "\\" + title + ".txt"
print filename
# construct a CSS Selector
sel_of_contents = CSSSelector('div.post_entry > p')
#
# Apply the selector to the DOM tree.
results = sel_of_contents(tree)
# print results
#
# print the HTML for the first result.
match = results[0]
# print lxml.html.tostring(match)
#
# print the text of the first result.
print "Use lxml", match.text.encode('ISO-8859-1', 'ignore').decode('utf-8')
#
# get the text out of all the results
data = [result.text for result in results]
with open(filename, "wb") as f:
    for content in data:
        if content:
            f.write("{}\n".format(content.encode('ISO-8859-1', 'ignore').decode('utf-8')))
            # print content.encode('ISO-8859-1', 'ignore').decode('utf-8')
f.close()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末峰锁,一起剝皮案震驚了整個濱河市萎馅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌虹蒋,老刑警劉巖糜芳,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異千诬,居然都是意外死亡耍目,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門徐绑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人莫辨,你說我怎么就攤上這事傲茄。” “怎么了沮榜?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵盘榨,是天一觀的道長。 經(jīng)常有香客問我蟆融,道長草巡,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任型酥,我火速辦了婚禮山憨,結(jié)果婚禮上查乒,老公的妹妹穿的比我還像新娘。我一直安慰自己郁竟,他們只是感情好玛迄,可當(dāng)我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著棚亩,像睡著了一般蓖议。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上讥蟆,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天勒虾,我揣著相機與錄音,去河邊找鬼瘸彤。 笑死修然,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的钧栖。 我是一名探鬼主播低零,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼拯杠!你這毒婦竟也來了掏婶?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤潭陪,失蹤者是張志新(化名)和其女友劉穎雄妥,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體依溯,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡老厌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了黎炉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枝秤。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖慷嗜,靈堂內(nèi)的尸體忽然破棺而出淀弹,到底是詐尸還是另有隱情,我是刑警寧澤庆械,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布薇溃,位于F島的核電站,受9級特大地震影響缭乘,放射性物質(zhì)發(fā)生泄漏沐序。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望策幼。 院中可真熱鬧邑时,春花似錦、人聲如沸垄惧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽到逊。三九已至铣口,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間觉壶,已是汗流浹背脑题。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留铜靶,地道東北人叔遂。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像争剿,于是被迫代替她去往敵國和親已艰。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,080評論 25 707
  • 在上一章中蚕苇,我們構(gòu)建了一個爬蟲哩掺,可以通過跟蹤鏈接的方式下載我們所需的網(wǎng)頁。雖然這個例子很有意思涩笤,卻不夠?qū)嵱媒劳蹋驗榕?..
    海人為記閱讀 817評論 0 0
  • 在上一篇中 , 我們構(gòu)建了一個爬蟲蹬碧, 可以通過跟蹤鏈接的方式下載我們所需的網(wǎng)頁舱禽。 但是爬蟲在下載網(wǎng)頁之后又將 結(jié)果...
    楓灬葉閱讀 1,961評論 0 5
  • 清晨,雨還在淅淅瀝瀝地下著恩沽,打開窗簾誊稚,玻璃上已蒙上一層霧氣,"又是個下雨天罗心,哎!"我嘆了囗氣片吊,瞅瞅床頭睡意朦朧的夫...
    三七木木閱讀 795評論 0 0
  • 某天陳先生去了衛(wèi)生間,習(xí)慣性帶上了手機全谤,我百無聊賴刷微博肤晓,刷到撩漢金句,便想逗逗陳先生,于是發(fā)給他:會當(dāng)凌絕頂补憾,接...
    萬里無我閱讀 5,260評論 4 1