????????記錄一下折騰了近一天的爬蟲(chóng)過(guò)程祝迂。
????????學(xué)習(xí)python半月以來(lái)姐军,算是頗有收獲侦副。還以為自己已經(jīng)掌握了許多知識(shí)侦锯,沒(méi)想到寫(xiě)個(gè)網(wǎng)站的爬蟲(chóng)代碼竟折騰了一天,若非道友相助秦驯,怕是今晚都沒(méi)法睡覺(jué)了尺碰。(沒(méi)辦法,栽在了一個(gè)我都不知道為什么這樣處理的問(wèn)題上)。為了不能讓今日的辛苦白白付出亲桥,還是要寫(xiě)一篇總結(jié)洛心,來(lái)提煉一下今日的收獲。(ps:本人小白题篷,大神看見(jiàn)勿噴词身,不過(guò)其中有錯(cuò)還望指點(diǎn)一二,哈哈)
? ? ? ? 此次爬蟲(chóng)其實(shí)也沒(méi)用到什么復(fù)雜的框架番枚,只是跟著慕課網(wǎng)的一個(gè)爬蟲(chóng)教程學(xué)習(xí)了一下法严,便著手開(kāi)始了自己的爬蟲(chóng)之旅。通過(guò)本次對(duì)斗魚(yú)網(wǎng)站的爬蟲(chóng)葫笼,可將網(wǎng)頁(yè)爬蟲(chóng)的過(guò)程逐個(gè)分為以下幾個(gè)部分:
????????一深啤、獲取網(wǎng)頁(yè)內(nèi)容
? ? ? ? 二、定義正則表達(dá)式
????????三堤尾、提取網(wǎng)頁(yè)中自己所需內(nèi)容
? ? ? ? 四哲泊、定義函數(shù)優(yōu)化列表中字典值的內(nèi)容格式
? ? ? ? 五切威、排序
? ? ? ? 其中分為兩個(gè)部分:
? ? ? ? 1、對(duì)優(yōu)化格式后的列表按需進(jìn)行排序
? ? ? ? 2喳魏、定義排序方式
? ? 六刺彩、定義入口方法
? ? 以上就是網(wǎng)頁(yè)爬蟲(chóng)過(guò)程中幾大主要的步驟了嗡害。當(dāng)然爬蟲(chóng)的世界是浩瀚無(wú)垠的,本次爬蟲(chóng)案例也十分簡(jiǎn)單畦攘,只可稱(chēng)之為滄海一粟霸妹。但是麻雀雖小,五臟俱全知押,思考的過(guò)程還是值得借鑒的叹螟!