python3爬蟲學(xué)習(xí)筆記

掘金隨機(jī)最新100篇文章的分詞

本人前端狗一名,也想追隨人工智能的道路肮帐,于是在java、php边器、python的選擇中徘徊训枢,因?yàn)樯磉卝ava和php的coder太多了,于是乎選擇了python忘巧,學(xué)習(xí)python第二天發(fā)文恒界;

因?yàn)槲沂乔岸耍瑢W(xué)習(xí)python基本算是毫無基礎(chǔ)砚嘴,習(xí)慣性摟一遍runoob十酣,籠統(tǒng)過度涩拙,只是有印象,方便后期查找耸采,基本的了解了之后兴泥,開始爬!洋幻!

python比較好的一點(diǎn)就是有非常強(qiáng)大且數(shù)量夠多的庫郁轻,所以大多數(shù)時候你只需要會用輪子而不需要造輪子;

我今天選擇爬的網(wǎng)站是掘金:https://juejin.im,首頁的最新隨機(jī)文章

第一步:查看頁面的渲染方式:

? ? 首先要確定你要爬的網(wǎng)站是如何進(jìn)行前端渲染的文留,我用的方式比較簡單好唯,用chrome打開目標(biāo)網(wǎng)站,在頁面中右鍵-》查看網(wǎng)頁源代碼燥翅,如果從源代碼中能看到網(wǎng)站上所有的數(shù)據(jù)骑篙,就代表你可以使用傳統(tǒng)的爬蟲方式,反之則需要使用ajax的方式爬,如下圖


掘金Ajax方式渲染頁面,查看網(wǎng)頁源代碼時球凰,只能看到固定的html和一堆東西,這類網(wǎng)站需要使用ajax的方式爬


這是簡書的源代碼杨名,傳統(tǒng)方式爬即可

PS:安全性的問題,我不太情書猖毫,但是從我現(xiàn)在掌握的技術(shù)來看台谍,對于ajax方式的爬蟲技術(shù)稍稍復(fù)雜一點(diǎn)點(diǎn)

第二步:查找數(shù)據(jù)接口

? ? 已經(jīng)確認(rèn)目標(biāo)網(wǎng)站的渲染方式,那么現(xiàn)在需要找到傳輸數(shù)據(jù)的接口吁断,通常這類接口是都會暴露的趁蕊,因?yàn)榘踩詥栴},訪問接口的時候可能會有header的驗(yàn)證仔役,因?yàn)槲覀冎皇遣榭磾?shù)據(jù)掷伙,并不存在ddos攻擊或者其他的不法行為,所以又兵,用自己瀏覽器真實(shí)的參數(shù)就可以

? ? 先來找接口任柜,chrome打開目標(biāo)網(wǎng)站,F(xiàn)12->network->刷新頁面沛厨,不出意外的話你會看到如下界面


chrome開發(fā)者工具

然后選擇XHR乘盼,為什么選xhr不做過多的解析google、百度即可俄烁,這是ajax的一種方法,選擇xhr后數(shù)據(jù)量會小很多


變這樣了

這里發(fā)現(xiàn)的基本都是需要請求返回的數(shù)據(jù)接口级野,我的習(xí)慣是先看大的页屠,為什么呢(因?yàn)槲壹夹g(shù)LOW啊粹胯,哈哈),不行就每個都點(diǎn)一次辰企,總會發(fā)現(xiàn)的风纠,哈哈


選擇一個之后,看到的信息

因?yàn)槲覀円磾?shù)據(jù)所以這里選擇Preview牢贸,如圖


貌似有數(shù)據(jù)啊

因?yàn)榫蚪鹗菨L動加載竹观,所以我們繼續(xù)向下滾動,對比一下每次加載數(shù)據(jù)的變化(這里為爬多數(shù)據(jù)準(zhǔn)備潜索,因?yàn)榫蚪鹗醉撁看沃患虞d10條數(shù)據(jù))


向下滾動頁面后臭增,我們發(fā)下有新數(shù)據(jù)進(jìn)來

因?yàn)槲覍Ρ冗^,就不發(fā)圖了竹习,每次請求的接口數(shù)據(jù)都一樣誊抛,沒有區(qū)別,就代表這整陌,用戶每次向下滑動頁面請求的都是這個接口拗窃,但是返回的數(shù)據(jù)是不同的,這個應(yīng)該是掘金后臺進(jìn)行的處理泌辫,咱們不需要管随夸,換言之如果要獲得更多的數(shù)據(jù),多請求幾次這個接口就可以了(切記是掘金首頁的數(shù)據(jù)震放,因?yàn)槠渌麢谀康姆绞胶褪醉摬灰粯?

接下來我們要查看具體的接口是什么宾毒?所需參數(shù)都有啥?

選擇Headers標(biāo)簽


注意紅框

這里的數(shù)據(jù)大多數(shù)同學(xué)應(yīng)該能看明白

Request_url:請求的接口地址澜搅,這里是帶參數(shù)的

Request Method:請求方式

Host:Host地址

Referer:觸發(fā)接口的路由地址

User-Agent:瀏覽器信息

Query String Parameters :請求的數(shù)據(jù)

? ? sudi伍俘,ab, src 在Url中可以看到這些數(shù)據(jù)

以上就是我們需要的數(shù)據(jù)勉躺,數(shù)據(jù)請求的接口地址為:https://recommender-api-ms.juejin.im/v1/get_recommended_entry? 癌瘾,現(xiàn)在我們基本分析完了,可以寫代碼啦

第三步:在python中實(shí)現(xiàn)功能

直接上代碼

新手寫的LOW

到此饵溅,爬完結(jié)束妨退!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蜕企,隨后出現(xiàn)的幾起案子咬荷,更是在濱河造成了極大的恐慌,老刑警劉巖轻掩,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件幸乒,死亡現(xiàn)場離奇詭異,居然都是意外死亡唇牧,警方通過查閱死者的電腦和手機(jī)罕扎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門聚唐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人腔召,你說我怎么就攤上這事杆查。” “怎么了臀蛛?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵亲桦,是天一觀的道長。 經(jīng)常有香客問我浊仆,道長客峭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任氧卧,我火速辦了婚禮桃笙,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘沙绝。我一直安慰自己搏明,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布闪檬。 她就那樣靜靜地躺著星著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪粗悯。 梳的紋絲不亂的頭發(fā)上虚循,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天,我揣著相機(jī)與錄音样傍,去河邊找鬼横缔。 笑死,一個胖子當(dāng)著我的面吹牛衫哥,可吹牛的內(nèi)容都是我干的茎刚。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼撤逢,長吁一口氣:“原來是場噩夢啊……” “哼膛锭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蚊荣,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤初狰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后互例,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體奢入,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年媳叨,在試婚紗的時候發(fā)現(xiàn)自己被綠了俊马。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丁存。...
    茶點(diǎn)故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖柴我,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扩然,我是刑警寧澤艘儒,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站夫偶,受9級特大地震影響界睁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜兵拢,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一翻斟、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧说铃,春花似錦访惜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至幼苛,卻和暖如春窒篱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背舶沿。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工墙杯, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人括荡。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓高镐,卻偏偏與公主長得像,于是被迫代替她去往敵國和親一汽。 傳聞我的和親對象是個殘疾皇子避消,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容