使用python3內(nèi)置庫urllib和BeautifulSoup爬取盜墓筆記網(wǎng)站書籍

# coding=utf-8

'''

download_html:接受url钝凶,返回html和BeautifulSoup實例spider接受html返回url和數(shù)據(jù)process_data:處理字符串及保存數(shù)據(jù)controller:控制,調(diào)用'''

__author__ ='Leslie'

from urllib.requestimport urlopen

from bs4import BeautifulSoup

import re,collections,os

# 接受url灯萍,返回html和BeautifulSoup實例

def download_html(url):

html = urlopen(url).read().decode('utf-8')#獲取頁面數(shù)據(jù)

? ? soup = BeautifulSoup(html,'lxml')#實例化BeautifulSoup

? ? return html,soup

#spider接受html返回url隊列钉嘹、title隊列问畅、數(shù)據(jù)

def spider(html=False,soup=False):

# 爬取首頁的url和title

? ? if not htmland soup:

queue_url = collections.deque()# 存儲url隊列

? ? ? ? queue_title = collections.deque()# 存儲標(biāo)題隊列

? ? ? ? # 定位元素罕邀,提取a標(biāo)簽href和title屬性

? ? ? ? for itemin soup.find_all("div", {"class":"box"}):

for Alabelin item.find_all("a"):

queue_url.append(Alabel["href"])

# 處理title字符串中多余的字符

? ? ? ? ? ? ? ? Str1 = Alabel["title"]

Str2 ='_盜墓筆記9在線閱讀_盜墓筆記全集'

? ? ? ? ? ? ? ? if Str2in Str1:

Str1 = Str1.replace(Str2,'')

index = Str1.index(']')

Str1 = Str1[index +1:].strip()

queue_title.append(Str1)

return queue_url,queue_title

# 爬取文字

? ? if htmland soup:

all_p_label = soup.find("div",class_="content-body").find_all("p")

return all_p_label

# 處理字符串及保存數(shù)據(jù)

def process_data(Data,title):

# 標(biāo)題名去除不可用字符[\/?:*<>"|]

? ? while '\\' in title:

index = title.index('\\')

title = title[:index] + title[index +1:]

matchList = re.findall('[/?:*<>"|]*', title)

matchStr =''.join(matchList)# '?><'

? ? title =list(title)

for jin matchStr:

title.remove(j)

title =''.join(title)

#保存文件的絕對路徑

? ? abspath = os.path.join(os.path.abspath(r'.\daomubiji1'), title)

#去除文字中多余的字符串如:www.setupu.com

? ? CMP = re.compile("(http://)?([a-zA-Z]+\.)+com")# 編譯正則表達(dá)式對象

? ? for iin Data:

each_string =str(i.string).replace(" ","").strip()

if each_string !="None":

Match = re.search(CMP, each_string)# 匹配字符串

? ? ? ? ? ? # 保存文字到txt文件

? ? ? ? ? ? with open(abspath,'a',encoding='utf-8')as fp:

if Match !=None:

Newstring = each_string[:Match.span()[0]]

fp.write(Newstring +'\n')

else:

fp.write(each_string +'\n')

# 控制乏苦,調(diào)用

def controller(url):

# 獲取要爬取的url隊列和文件名標(biāo)題

? ? html,soup = download_html(url)

queue_url,queue_title = spider(soup=soup)

# 循環(huán)爬取url知道隊列為空

? ? while url:

url = queue_url.popleft()

title = queue_title.popleft() +'.txt'

? ? ? ? print(title,url)

html,soup = download_html(url)

text_data = spider(html,soup)

process_data(text_data,title)

url =r'http://www.seputu.com/'

os.mkdir(os.path.abspath(r'.\daomubiji1'))

controller(url)



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末株扛,一起剝皮案震驚了整個濱河市尤筐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌洞就,老刑警劉巖盆繁,帶你破解...
    沈念sama閱讀 218,640評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異旬蟋,居然都是意外死亡油昂,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評論 3 395
  • 文/潘曉璐 我一進(jìn)店門倾贰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來冕碟,“玉大人,你說我怎么就攤上這事匆浙“菜拢” “怎么了?”我有些...
    開封第一講書人閱讀 165,011評論 0 355
  • 文/不壞的土叔 我叫張陵首尼,是天一觀的道長我衬。 經(jīng)常有香客問我,道長饰恕,這世上最難降的妖魔是什么挠羔? 我笑而不...
    開封第一講書人閱讀 58,755評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮埋嵌,結(jié)果婚禮上破加,老公的妹妹穿的比我還像新娘。我一直安慰自己雹嗦,他們只是感情好范舀,可當(dāng)我...
    茶點故事閱讀 67,774評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著了罪,像睡著了一般锭环。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上泊藕,一...
    開封第一講書人閱讀 51,610評論 1 305
  • 那天辅辩,我揣著相機(jī)與錄音,去河邊找鬼娃圆。 笑死玫锋,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的讼呢。 我是一名探鬼主播撩鹿,決...
    沈念sama閱讀 40,352評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼悦屏!你這毒婦竟也來了节沦?” 一聲冷哼從身側(cè)響起键思,我...
    開封第一講書人閱讀 39,257評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎甫贯,沒想到半個月后稚机,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,717評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡获搏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,894評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了失乾。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片常熙。...
    茶點故事閱讀 40,021評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖碱茁,靈堂內(nèi)的尸體忽然破棺而出裸卫,到底是詐尸還是另有隱情,我是刑警寧澤纽竣,帶...
    沈念sama閱讀 35,735評論 5 346
  • 正文 年R本政府宣布墓贿,位于F島的核電站,受9級特大地震影響蜓氨,放射性物質(zhì)發(fā)生泄漏聋袋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,354評論 3 330
  • 文/蒙蒙 一穴吹、第九天 我趴在偏房一處隱蔽的房頂上張望幽勒。 院中可真熱鬧,春花似錦港令、人聲如沸啥容。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,936評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咪惠。三九已至,卻和暖如春淋淀,著一層夾襖步出監(jiān)牢的瞬間遥昧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,054評論 1 270
  • 我被黑心中介騙來泰國打工朵纷, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留渠鸽,地道東北人。 一個月前我還...
    沈念sama閱讀 48,224評論 3 371
  • 正文 我出身青樓柴罐,卻偏偏與公主長得像徽缚,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子革屠,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,974評論 2 355

推薦閱讀更多精彩內(nèi)容