利用Scrapy 抓取豆瓣數(shù)據(jù)(二)

上一節(jié)我們簡(jiǎn)單講了一下Scrapy 的安裝和使用。在正式開始抓取之前呢,我們先要介紹一些html存崖。磨刀不誤砍柴工嘛

HTML 簡(jiǎn)介

HTML 也就是HyperText Markup Language静暂。中文翻譯過來就是超文本標(biāo)記語言。它與CSS晦毙、JavaScript 三者共同構(gòu)成了仿佛多彩的網(wǎng)頁內(nèi)容生巡。 CSS 是網(wǎng)頁的妝容,JavaScript是網(wǎng)頁的神經(jīng)系統(tǒng)见妒,那么HTML就是骨架和血肉了孤荣。如果你訪問一個(gè)網(wǎng)站的時(shí)候并沒有獲取到相應(yīng)的CSS 和JavaScript 文件,那么你得到的最多就是一個(gè)“不好看”的網(wǎng)頁须揣。但是并不會(huì)影響到信息的獲取盐股。這也是互聯(lián)網(wǎng)最初設(shè)計(jì)哲學(xué)的體現(xiàn)——實(shí)現(xiàn)信息的平等交流溝通。 只有信息才是最核心的交流內(nèi)容耻卡。不過現(xiàn)在眼睛被養(yǎng)刁了的我們怕是難以忍受最初的互聯(lián)網(wǎng)形態(tài)了吧疯汁。

閑話不多,我們先來看一看最簡(jiǎn)單的一段HTML 代碼吧卵酪。

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <title>Title</title>
</head>
<body>
  
</body>
</html>

HTML語言之所以突出“標(biāo)記”二字就是因?yàn)榛舅械膬?nèi)容都是儲(chǔ)存在一對(duì)<></>標(biāo)記之間的幌蚊。例如其中的<html></html>標(biāo)簽就意味著這之間的內(nèi)容都是html內(nèi)容。相應(yīng)的各種不同的標(biāo)簽都有著不同的語意溃卡,例如<a></a>標(biāo)簽的超鏈接溢豆,<ul></ul>標(biāo)簽的列表等等。通過這些標(biāo)簽賦予的不同語意塑煎,瀏覽器會(huì)作出不同的解析沫换。

善于觀察的你也一定注意到了,這些標(biāo)簽互相之間時(shí)存在嵌套的。例如上面的那一段讯赏,<head></head>標(biāo)簽就嵌套在了<html></html>標(biāo)簽之內(nèi)了垮兑。這就涉及到我們最重要的一點(diǎn)知識(shí)——「html 的樹形結(jié)構(gòu)」。

所謂樹形結(jié)構(gòu)就是一層接著一層這樣漱挎,就像一棵樹有著樹根系枪,枝干,樹葉這樣的結(jié)構(gòu)磕谅。如圖所示


HTML結(jié)構(gòu)示意圖

想要找到某一個(gè)具體的節(jié)點(diǎn)就要順著脈絡(luò)一層層的向下尋找才行私爷。這就是所謂的DOM(Document Object Model)模型。要讓人去在網(wǎng)頁中找到某一個(gè)信心有時(shí)候很容易膊夹,因?yàn)轭愃频男畔⑽恢枚际遣畈欢嗟某幕耄且屌老x來找就需要給出明確的信息才可以哦。

審查元素

對(duì)于人來說直接從源代碼去查找某個(gè)信息的具體位置并不現(xiàn)實(shí)放刨,因?yàn)闆]有渲染過的HTML代碼實(shí)在是不符合人類正常的視覺模式工秩。好在瀏覽器可以幫到我們大忙。

對(duì)于某個(gè)特定的元素而言进统,你只要在它上方點(diǎn)擊右鍵選擇審查元素助币,就可以獲得我們下一步工作中需要的信息了。如圖所示

firefox中審查元素截圖

這樣一個(gè)節(jié)點(diǎn)的信息就一級(jí)一級(jí)的展示在我們的眼前了螟碎。這里我們不光看到了一級(jí)一級(jí)的標(biāo)簽眉菱,還有部分標(biāo)簽屬性,下一節(jié)我們講解XPath selector 的時(shí)候都會(huì)用到哦掉分。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末俭缓,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子叉抡,更是在濱河造成了極大的恐慌尔崔,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件褥民,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡洗搂,警方通過查閱死者的電腦和手機(jī)消返,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來耘拇,“玉大人撵颊,你說我怎么就攤上這事”古眩” “怎么了倡勇?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長嘉涌。 經(jīng)常有香客問我妻熊,道長夸浅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任扔役,我火速辦了婚禮帆喇,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘亿胸。我一直安慰自己坯钦,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布侈玄。 她就那樣靜靜地躺著婉刀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪序仙。 梳的紋絲不亂的頭發(fā)上路星,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音诱桂,去河邊找鬼洋丐。 笑死,一個(gè)胖子當(dāng)著我的面吹牛挥等,可吹牛的內(nèi)容都是我干的友绝。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼肝劲,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼迁客!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起辞槐,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤掷漱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后榄檬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卜范,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年鹿榜,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了海雪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡舱殿,死狀恐怖奥裸,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情沪袭,我是刑警寧澤湾宙,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響侠鳄,放射性物質(zhì)發(fā)生泄漏埠啃。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一畦攘、第九天 我趴在偏房一處隱蔽的房頂上張望霸妹。 院中可真熱鬧,春花似錦知押、人聲如沸叹螟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽罢绽。三九已至,卻和暖如春静盅,著一層夾襖步出監(jiān)牢的瞬間良价,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國打工蒿叠, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留明垢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓市咽,卻偏偏與公主長得像痊银,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子施绎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容