感謝曾老師耐心的講解和細致的回答弧哎。
本次課的作業(yè)如下:
選擇簡書“解密大數(shù)據(jù)”專題里上次爬蟲課的作業(yè)文檔地址作為分析頁面蔫缸,分析并提交該頁面的網(wǎng)頁結(jié)構(gòu)與元素標(biāo)簽位置信息柿顶。
前言
作為一個技術(shù)小白裙秋,其實還是蠻難分得清F12在各個瀏覽器上表現(xiàn)的不同的桥狡。還好曾老師推薦了Firefox,果然畫風(fēng)親民颅围,本次課業(yè)便拜托它了伟葫。
答題前先做題目分解:
1.目標(biāo)頁面:簡書“解密大數(shù)據(jù)”專題里上次爬蟲課的作業(yè)文檔地址(http://www.reibang.com/p/673b768c6084)
2.分析此頁面結(jié)構(gòu)
3.分析元素標(biāo)簽位置信息
4.使用工具:Firefox
1.導(dǎo)入目標(biāo)頁面
目標(biāo)頁面一共有三張截圖,請一定要原諒技術(shù)小白不會截整頁那種長圖 /(ㄒoㄒ)/~~
2.分析此頁面結(jié)構(gòu)
此頁面大體分為5部分院促,分別是:
①寫死不隨頁面滾動而滾動的 -- 頂部欄筏养、側(cè)邊欄
②文章信息部分 -- 此部分共分為三塊,一塊在頂部(圖1的④)常拓,包含文章名稱和文章基礎(chǔ)信息(作者渐溶、發(fā)表時間、字數(shù)墩邀、閱讀情況)掌猛。第二塊在中底部(圖2的③),包含文章基礎(chǔ)信息(作者眉睹、發(fā)表時間荔茬、字數(shù)、閱讀情況)竹海。第三塊在底部(圖3的③)慕蔚,包含文章收錄情況。
③正文
④評論區(qū)
⑤推薦區(qū)
3.分析元素標(biāo)簽位置信息
全局頂部導(dǎo)航欄
用<nav></nav>括起來的元素是全局頂部導(dǎo)航欄
其中:斋配,因logo支持鏈接跳轉(zhuǎn)主頁孔飒,所以在<img>上面會有<a></a>括起來的鏈接
"note"類
“note”類一共分為兩個子類 “post” 和 “side-tool” 灌闺,分別為文章內(nèi)容和右側(cè)導(dǎo)航欄。
隨想:如果想抓取文章的標(biāo)題坏瞄,是不是按照 “note” - “post” - “article” - “title” 路徑進行抓取就可以了桂对?
小結(jié)
本次的作業(yè)差不多也就這樣了,其實越寫到后面思路越清晰鸠匀,直到在畫 “note” 類的樹圖時才意識到其實第一題在寫分塊的時候技術(shù)白的思想是有多不成熟金度。不過還是不改了亮曹,以此來記錄思想進步的過程也不錯庶溶,哈秦踪。本次作業(yè)的收獲是:眼睛看到的結(jié)構(gòu)并不是真實的結(jié)構(gòu),還是要先看代碼再下判斷爬范。嗯父腕。