python基本爬蟲思路

組成部分

  • url管理器
管理要爬取和將要爬取的url
關(guān)鍵在于唯一性暂殖,存儲(chǔ)的時(shí)候寓盗,不然會(huì)很浪費(fèi)效率
比如set()有唯一性的優(yōu)點(diǎn)
  • html下載器
下載網(wǎng)頁內(nèi)容
基本語法:
from urllib import request
reponse = request.urlopen(url)#開始爬取
response.read()#網(wǎng)頁內(nèi)容
  • html解析器
解析下載好的網(wǎng)頁內(nèi)容檐蚜,提取要的內(nèi)容
常用module-BeautifulSoup
基本語法:
from bs4 import BeautifulSoup
import urllib.parse
content = find_all('a',href='sss')#找到所有鏈接為sss的a標(biāo)簽
  • 存儲(chǔ)器
存儲(chǔ)爬取好的內(nèi)容
關(guān)鍵在于與數(shù)據(jù)庫的鏈接

關(guān)于urllib的學(xué)習(xí)<p>

  • urllib模擬瀏覽器訪問網(wǎng)址
  • 攜帶User-Agent頭(里面包含瀏覽器、電腦的信息,添加這個(gè)頭以模擬更真實(shí)的訪問)
from urllib.request import Request
#注意Request的引入
req = request.Request(url)
req.add_header(key,value)#添加信息软驰,這只是添加一個(gè)頭部呻逆,如果有很多個(gè)要寫多個(gè)add_header
response = request.urlopen(req)#此時(shí)傳進(jìn)去的就不是url而是req了
  • POST請(qǐng)求,比如說登陸的時(shí)候,得提交用戶名和密碼
from urllib import parse
#注意parse的引入
#使用urlencode生成post數(shù)據(jù)
postData = parse.urlencode([
(key1,val1),
(key2,val2)
])
request.urlopen(req,data=postData.encode('utf-8'))#在urlopen里面data參數(shù)攜帶要發(fā)送的數(shù)據(jù)空入,注意要編碼發(fā)送
  • 得到請(qǐng)求狀態(tài) response.status
  • 得到服務(wù)器的類型 response.reason

關(guān)于Beautiful Soup的使用<p>

  • 默認(rèn)使用unicode來接受一個(gè)文檔络它,并且以u(píng)tf-8返回,所以用BeautifulSoup的時(shí)候不用去解碼
  • 引入from bs4 import BeautifulSoup,as起別名->from bs4 import BeautifulSoup as bs然后就可以用bs了歪赢,一般情況不要起別名化戳,會(huì)很混亂的,別人也不方便看
  • beautifulsoup解析器埋凯,就是bs以何種方式來解析目標(biāo)對(duì)象点楼,一般用python自帶的html.parser<p>
    soup = BeautifulSoup(html_doc,"html.parser")
  • 簡(jiǎn)單的方法
soup.標(biāo)簽名 #獲取某個(gè)標(biāo)簽
soup.find('標(biāo)簽名')
soup.find(id="")根據(jù)id來找
soup.find(id="sidebar").string,獲取這個(gè)id標(biāo)簽內(nèi)的內(nèi)容,class不可以,class_可以白对,class是python關(guān)鍵字
soup.find_all('標(biāo)簽名‘)
soup.find("p",{“class”:"story"})根據(jù)屬性來找
#如果根據(jù)類名來找一組元素的話掠廓,要用 find_all并且要指定元素名
#獲取標(biāo)簽內(nèi)的文本內(nèi)容,string屬性或者get_text()方法
get_text()-> 獲得標(biāo)簽中包含的文本內(nèi)容甩恼,包括孫子的文本內(nèi)容
.string->如果標(biāo)簽只有一個(gè)NavigableString類型子節(jié)點(diǎn)或者僅有一個(gè)子節(jié)點(diǎn)蟀瞧,那么可以用.string得到子節(jié)點(diǎn),如果有多個(gè)子節(jié)點(diǎn)就不可以
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末条摸,一起剝皮案震驚了整個(gè)濱河市悦污,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌钉蒲,老刑警劉巖切端,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異顷啼,居然都是意外死亡踏枣,警方通過查閱死者的電腦和手機(jī)小压,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來椰于,“玉大人怠益,你說我怎么就攤上這事●觯” “怎么了蜻牢?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)偏陪。 經(jīng)常有香客問我抢呆,道長(zhǎng),這世上最難降的妖魔是什么笛谦? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任抱虐,我火速辦了婚禮,結(jié)果婚禮上饥脑,老公的妹妹穿的比我還像新娘恳邀。我一直安慰自己,他們只是感情好灶轰,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布谣沸。 她就那樣靜靜地躺著,像睡著了一般笋颤。 火紅的嫁衣襯著肌膚如雪乳附。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天伴澄,我揣著相機(jī)與錄音赋除,去河邊找鬼。 笑死非凌,一個(gè)胖子當(dāng)著我的面吹牛举农,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播清焕,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼并蝗,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了秸妥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤沃粗,失蹤者是張志新(化名)和其女友劉穎粥惧,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體最盅,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡突雪,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年起惕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咏删。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡惹想,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出督函,到底是詐尸還是另有隱情嘀粱,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布辰狡,位于F島的核電站锋叨,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏宛篇。R本人自食惡果不足惜娃磺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望叫倍。 院中可真熱鬧偷卧,春花似錦、人聲如沸吆倦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逼庞。三九已至蛇更,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間赛糟,已是汗流浹背派任。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留璧南,地道東北人掌逛。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像司倚,于是被迫代替她去往敵國(guó)和親豆混。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容动知,均僅用于學(xué)習(xí)交流皿伺,請(qǐng)勿用于任何商業(yè)用途! 一盒粮、前言 強(qiáng)烈建議:請(qǐng)?jiān)陔娔X的陪同下鸵鸥,閱讀本文...
    Bruce_Szh閱讀 12,682評(píng)論 6 28
  • 關(guān)于bs4,官方文檔的介紹已經(jīng)非常詳細(xì)了,傳送:Beautifulsoup 4官方文檔,這里我把它組織成自己已經(jīng)消...
    徐薇薇閱讀 5,382評(píng)論 0 1
  • Python爬蟲入門(urllib+Beautifulsoup) 本文包括:1、爬蟲簡(jiǎn)單介紹2妒穴、爬蟲架構(gòu)三大模塊3...
    廖少少閱讀 9,793評(píng)論 0 6
  • http header 消息通常被分為4個(gè)部分:general header即頭部, request header...
    徐薇薇閱讀 31,989評(píng)論 0 5
  • 期末考試臨近了宋税,進(jìn)入了激烈緊張的復(fù)習(xí)階段.復(fù)習(xí)無非于讀讀寫寫背背,做卷子成了孩子們每天必備的重要課程讼油。課下寫...
    肖慶娜閱讀 234評(píng)論 0 0