Python爬蟲:學(xué)了requests庫和re庫之后能做的事情

學(xué)習(xí)的最好模式,就是學(xué)了就去馬上用咕缎。上次是學(xué)完了urllib和re庫之后嘗試爬取了豆瓣分享的書單优床,那個(gè)時(shí)候發(fā)現(xiàn)urllib這個(gè)標(biāo)準(zhǔn)庫還是不太好使。今天剛學(xué)了requests這個(gè)更好用的庫之后丁鹉,嘗試和re一起使用爬取簡書的第一頁。

第一步:獲取響應(yīng)
使用的requests非常簡單悴能,非常人性化的get功能揣钦。

import requests
# 獲取respnose
headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
    'Host':'www.reibang.com'
}
url = 'http://www.reibang.com/'
response = requests.get(url,headers)
print(response.status_code)
context = response.text

第二步:從網(wǎng)頁中提取目標(biāo)信息
這一步主要涉及到觀察網(wǎng)頁構(gòu)造,然后使用正則表達(dá)式

我的目標(biāo)是:

  • 作者
  • 題目
  • 文章簡單內(nèi)容
  • 一些tag

先嘗試構(gòu)建獲取作者的正則表達(dá)式

pattern = re.compile('<li.*?"name">.*?>(.*?)</a>',re.S)
re.findall(pattern,context)
#得到的結(jié)果
['\n',
 '馬力_可能性與大設(shè)計(jì)',
 '文藝女青年專治各種不服',
 '楊殼殼',
 '投資人日知錄',
 '白發(fā)老蘭',
 '2020號',
 '無戒',
 '大胃黃咚咚',
 'Aicuuu',
 '婉悅悠然',
 'MadisonT',
 '小薦薦',
 '會啊哦的跳跳蟲',
 '夢旅人rose',
 '吳益軍子',
 '飽醉豚',
 '張涔汐',
 '笙和簫',
 '手機(jī)殼0207',
 '雪花如糖']

一鼓作氣漠酿,構(gòu)建所有的目標(biāo)信息的正則表達(dá)式模式:

pattern = re.compile('<li.*?"name">.*?>(.*?)</a>.*?"title".*?>(.*?)</a>.*?act">(.*?)</p>.*?/i>(.*?)</a>',re.S)
results = re.findall(pattern,context)
for info in results:
    author,title,abstract,read_num = info
    author = re.sub('\s','',author)
    title = re.sub('\s','',title)
    print(author,title,abstract,read_num )
部分爬取結(jié)果

下一步學(xué)習(xí)計(jì)劃

  • re模塊雖然好用冯凹,但是寫起來還是麻煩,所以要去學(xué)習(xí)beautifulsoup等解析庫炒嘲,換一種提取數(shù)據(jù)方式
  • 目前的數(shù)據(jù)沒有采用合理的保存方式宇姚,所以下一步 要去了解一下如何合理保存數(shù)據(jù)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末团驱,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子空凸,更是在濱河造成了極大的恐慌诉位,老刑警劉巖弟头,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡乞巧,警方通過查閱死者的電腦和手機(jī)恋技,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門砂沛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瞎暑,“玉大人,你說我怎么就攤上這事滓窍÷舸剩” “怎么了?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵吏夯,是天一觀的道長此蜈。 經(jīng)常有香客問我,道長噪生,這世上最難降的妖魔是什么裆赵? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮跺嗽,結(jié)果婚禮上战授,老公的妹妹穿的比我還像新娘。我一直安慰自己桨嫁,他們只是感情好植兰,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著璃吧,像睡著了一般楣导。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上肚逸,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天爷辙,我揣著相機(jī)與錄音,去河邊找鬼朦促。 笑死,一個(gè)胖子當(dāng)著我的面吹牛栓始,可吹牛的內(nèi)容都是我干的务冕。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼幻赚,長吁一口氣:“原來是場噩夢啊……” “哼禀忆!你這毒婦竟也來了臊旭?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤箩退,失蹤者是張志新(化名)和其女友劉穎离熏,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體戴涝,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡滋戳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了啥刻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奸鸯。...
    茶點(diǎn)故事閱讀 39,932評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖可帽,靈堂內(nèi)的尸體忽然破棺而出娄涩,到底是詐尸還是另有隱情,我是刑警寧澤映跟,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布蓄拣,位于F島的核電站,受9級特大地震影響努隙,放射性物質(zhì)發(fā)生泄漏弯蚜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一剃法、第九天 我趴在偏房一處隱蔽的房頂上張望碎捺。 院中可真熱鬧,春花似錦贷洲、人聲如沸收厨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽诵叁。三九已至,卻和暖如春钦椭,著一層夾襖步出監(jiān)牢的瞬間拧额,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工彪腔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留侥锦,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓德挣,卻偏偏與公主長得像恭垦,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理番挺,服務(wù)發(fā)現(xiàn)唠帝,斷路器,智...
    卡卡羅2017閱讀 134,656評論 18 139
  • 1 前言 作為一名合格的數(shù)據(jù)分析師玄柏,其完整的技術(shù)知識體系必須貫穿數(shù)據(jù)獲取襟衰、數(shù)據(jù)存儲、數(shù)據(jù)提取粪摘、數(shù)據(jù)分析瀑晒、數(shù)據(jù)挖掘、...
    whenif閱讀 18,072評論 45 523
  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容赶熟,均僅用于學(xué)習(xí)交流瑰妄,請勿用于任何商業(yè)用途! 一映砖、前言 強(qiáng)烈建議:請?jiān)陔娔X的陪同下间坐,閱讀本文...
    Bruce_Szh閱讀 12,704評論 6 28
  • 本內(nèi)容為《用Python寫網(wǎng)絡(luò)爬蟲》書籍內(nèi)容,有興趣的讀者可以購買本書邑退,本章的代碼皆可在Python3中運(yùn)行竹宋。為了...
    海人為記閱讀 2,249評論 0 5
  • 01 不做別人的影子蜈七,活出自己的樣子 昨天刷朋友圈看到一個(gè)朋友感慨說:“我到了兒時(shí)羨慕的年紀(jì),卻沒能成為兒時(shí)羨慕的...
    婉風(fēng)清逸閱讀 6,437評論 2 5