第一步梳理_190515

初步總結(jié)

  • 雖然以后可能不一定走這個方向脂矫,不過作為搜集數(shù)據(jù)的一種方式霉晕,而且是強有力的方式捞奕,爬蟲還是值得入門一下的,畢竟大數(shù)據(jù)的時代嘛颅围,很多基礎(chǔ)的思想也是需要了解的

主要實現(xiàn)方式

  • 通常來說爬蟲是抓取數(shù)據(jù)的一種方式院促,這個思路很像卷福扮演圖靈研究第一臺計算機(jī)破解密碼的思路,就是通過頁面的表象常拓,直接獲取數(shù)據(jù),再整理成我們想要的形式茎辐,對網(wǎng)站怎么表述沒什么考量,也不用研究

幾個主要構(gòu)成

  • 獲取頁面信息
    將龐大的json格式數(shù)據(jù)全部抓取
  • 正則篩選
    在龐大的數(shù)據(jù)中弛槐,找出我們想要的數(shù)據(jù)
  • 定向下載/爬取
    將通過篩選出來的數(shù)據(jù)/url進(jìn)行定向獲取依啰,并整理成我們需要的格式

主流工具使用

這里其實有個原則,各種花里胡哨的架構(gòu)原則上是有用的速警,不過也要建立在合適的需求之上,如果只是想針對性的獲取某些小量數(shù)據(jù)桂对,完全沒必要將很多大的架構(gòu)研究清楚鸠匀,作為高級語言,py很大概率能夠幾行代碼就能實現(xiàn)基礎(chǔ)功能

裸奔

最簡單粗暴的方法宅此,最基礎(chǔ)的四個環(huán)節(jié)

urlopen()        #獲取整個頁面數(shù)據(jù)
read()           #將獲取的數(shù)據(jù)保存起來
re.findall()     #匹配正則表達(dá)式
urlretrieve()    #將匹配到的數(shù)據(jù)進(jìn)行定向爬取

scrapy

慢慢研究中爬范。。璧亮。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末斥难,一起剝皮案震驚了整個濱河市哑诊,隨后出現(xiàn)的幾起案子群扶,更是在濱河造成了極大的恐慌竞阐,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件暑劝,死亡現(xiàn)場離奇詭異骆莹,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)铃岔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進(jìn)店門汪疮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來峭火,“玉大人,你說我怎么就攤上這事智嚷÷敉瑁” “怎么了?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵盏道,是天一觀的道長稍浆。 經(jīng)常有香客問我,道長衅枫,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任朗伶,我火速辦了婚禮弦撩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘论皆。我一直安慰自己益楼,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布点晴。 她就那樣靜靜地躺著感凤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪粒督。 梳的紋絲不亂的頭發(fā)上陪竿,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天,我揣著相機(jī)與錄音屠橄,去河邊找鬼族跛。 笑死,一個胖子當(dāng)著我的面吹牛锐墙,可吹牛的內(nèi)容都是我干的庸蔼。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼贮匕,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了花枫?” 一聲冷哼從身側(cè)響起刻盐,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎劳翰,沒想到半個月后敦锌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡佳簸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年乙墙,在試婚紗的時候發(fā)現(xiàn)自己被綠了颖变。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡听想,死狀恐怖腥刹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情汉买,我是刑警寧澤衔峰,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站蛙粘,受9級特大地震影響垫卤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜出牧,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一穴肘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧舔痕,春花似錦评抚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至边翼,卻和暖如春鱼响,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背组底。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工丈积, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人债鸡。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓江滨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親厌均。 傳聞我的和親對象是個殘疾皇子唬滑,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 《這就是搜索引擎》這本書的第二章是關(guān)于爬蟲的,干貨很多(文章幾乎沒有廢話棺弊,所以復(fù)制居多)晶密,可以參考搜索引擎是如何構(gòu)...
    SeanCheney閱讀 2,099評論 0 20
  • 33款可用來抓數(shù)據(jù)的開源爬蟲軟件工具 要玩大數(shù)據(jù),沒有數(shù)據(jù)怎么玩模她?這里推薦一些33款開源爬蟲軟件給大家稻艰。 爬蟲,即...
    visiontry閱讀 7,323評論 1 99
  • 學(xué)霸和學(xué)渣永遠(yuǎn)也不懂的痛! 試問學(xué)霸侈净,你們知道既想學(xué)習(xí)又想玩兒尊勿,學(xué)習(xí)時想著玩兒僧凤,玩兒時想著作業(yè)的苦嗎? ...
    zpp最棒閱讀 390評論 1 1
  • 單身第五年時元扔,我逐漸學(xué)會了柔軟躯保。 這種柔軟不會刻意對現(xiàn)實做抵抗,也不會試圖拼命追尋什么因果答案摇展,這種柔軟很輕微吻氧。當(dāng)...
    缺氧的鯨閱讀 233評論 0 0
  • 0x1 前言之前看到大佬們在網(wǎng)上爆出tp遠(yuǎn)程代碼執(zhí)行,我就想著來復(fù)現(xiàn)一波咏连,所以寫篇文章做個筆記盯孙。 0x2漏洞復(fù)現(xiàn)首...
    _saulGoodman_閱讀 1,667評論 0 1