Python爬蟲學(xué)習(xí)-基礎(chǔ)爬取

編譯環(huán)境:python v3.5.0, mac osx 10.11.4
第三方庫:針對網(wǎng)頁解析王污,python有豐富的第三方庫如:

BeautifulSoup, urllib, requests etc.
可以通過import來引入指定第三方庫惫皱,通過from lib import function導(dǎo)入第三方庫中的指定函數(shù)狰挡。如:
import requests, urllib.request, time, os from bs4 import BeautifulSoup # 導(dǎo)入需要用到的第三方庫

對網(wǎng)頁進(jìn)行解析:BeautifulSoup & url lib

url = 'https://www.ncbi.nlm.nih.gov/core/alerts/alerts.js_=1462105646975' wb_dt=requests.get(url) soup=BeautifulSoup(wb_dt.text,'lxml')
上述代碼可以解析指定url中的HTML, 通過requests中的get方式獲得裙椭。
wb_dt.text可以獲得HTML的純文本文件驴娃。
BeautifulSoup(wb_dt.text,'lxml')則能對傳入的純文本文件采用lxml庫進(jìn)行解析削饵。

篩選需要的信息:soup.select('selector')


可以通過chrome瀏覽器中的檢查查詢指定元素的位置岩瘦,復(fù)制selector到
soup.select('selector')

這一步驟主要是為了篩選所選元素特殊的位置喊衫,selector只要能指定到所需信息的位置即可厢拭。

動態(tài)網(wǎng)頁解析

當(dāng)我們需要爬取動態(tài)網(wǎng)頁大量頁面信息時,我們可以從不斷response為HTML的headers中找尋規(guī)律疆柔。如圖所示劈伴,我們發(fā)現(xiàn)其連續(xù)加載其實是在返回時不斷通過request中url的改變生成密末。


實戰(zhàn)源代碼 1 爬取霉霉照片


其中導(dǎo)入的os模塊可以判斷目錄是否存在以及新建目錄。
os.makedir(path)os.makedirs(path)的區(qū)別在于若父級目錄不存在跛璧,則os.makedir(path)會報錯严里,而os.makedirs(path)則會連同父級目錄一起創(chuàng)建
os.path.exists(path)則可以檢查目錄是否存在

總結(jié) 1

1、第三方庫可以良好的解析我們需要爬取的網(wǎng)頁
2追城、通過刷新發(fā)現(xiàn)刹碾,觀察response可以發(fā)現(xiàn)request規(guī)律,從而抓取靜態(tài)網(wǎng)頁
3座柱、針對具有反爬蟲的網(wǎng)頁迷帜,可以利用time庫中的
time.sleep(seconds)來降低訪問頻率叨吮。加入header和proxies也可以防止針對ip的反爬取。
4瞬矩、常用user agent https://blog.phpgao.com/user_agent_collection.html

實戰(zhàn)源代碼 2 爬取一頁商品數(shù)據(jù)(初識API)

BeautifulSoup文檔
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
利用正則表達(dá)式


**篩選出選定區(qū)域的字符串.strings **
去除字符串中的大片空格區(qū)域.stripped_strings
整體代碼
####總結(jié) 2

  • 觀察推廣和轉(zhuǎn)轉(zhuǎn)href與正常商品信息之間的差別茶鉴,可以通過
    soup.select('a[href^="http://bj.58.com/"]')
  • 發(fā)現(xiàn)返回值不對時,值可能由js景用,node.js等生成
    打印soup 搜索變量名再從network文件憑經(jīng)驗中找尋

    主要看response返回的值為文本的文件
    確定目標(biāo)后看url和headers涵叮,遇到反爬將cookies等全部寫入headers中逐個嘗試,此次實踐伞插,request中需要加referee
    此次找尋流程:
    從按前面提到的方法割粮,網(wǎng)頁中檢查瀏覽量。

    發(fā)現(xiàn)soup返回值不對媚污,查詢soup值發(fā)現(xiàn)所含值為0舀瓢。
    推測其值可能由js或者node.js控制,重新加載頁面查詢network中的js文件耗美,查看返回值為文本的文件京髓。
    找到目標(biāo)文件后,查看其headers商架。
    根據(jù)headers編譯探索request請求(針對反爬)

    All source code can be downloaded at GitHub:
    https://github.com/jacobkam/WebCrawlerLearning.git
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末堰怨,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蛇摸,更是在濱河造成了極大的恐慌备图,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赶袄,死亡現(xiàn)場離奇詭異揽涮,居然都是意外死亡,警方通過查閱死者的電腦和手機饿肺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進(jìn)店門蒋困,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人唬格,你說我怎么就攤上這事家破。” “怎么了购岗?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵汰聋,是天一觀的道長。 經(jīng)常有香客問我喊积,道長烹困,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任乾吻,我火速辦了婚禮髓梅,結(jié)果婚禮上拟蜻,老公的妹妹穿的比我還像新娘。我一直安慰自己枯饿,他們只是感情好酝锅,可當(dāng)我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著奢方,像睡著了一般搔扁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蟋字,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天稿蹲,我揣著相機與錄音,去河邊找鬼鹊奖。 笑死苛聘,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的忠聚。 我是一名探鬼主播设哗,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼咒林!你這毒婦竟也來了熬拒?” 一聲冷哼從身側(cè)響起爷光,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤垫竞,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蛀序,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體欢瞪,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年徐裸,在試婚紗的時候發(fā)現(xiàn)自己被綠了遣鼓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡重贺,死狀恐怖骑祟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情气笙,我是刑警寧澤次企,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站潜圃,受9級特大地震影響缸棵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜谭期,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一堵第、第九天 我趴在偏房一處隱蔽的房頂上張望吧凉。 院中可真熱鬧,春花似錦踏志、人聲如沸阀捅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽也搓。三九已至,卻和暖如春涵紊,著一層夾襖步出監(jiān)牢的瞬間傍妒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工摸柄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留颤练,地道東北人。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓驱负,卻偏偏與公主長得像嗦玖,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子跃脊,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容