? ? ? ? ?看了幾天的python,發(fā)現(xiàn)python的語法確實(shí)簡單负拟。今天了解了一下python寫爬蟲烦衣,在這里記錄一下。
首先 我們要下載pycharm?
然后新建工程
第一種辦法
目錄如上 rexx.py 是使用正則表達(dá)式的方法? meizi.py是使用BeautifulSoup 三方庫來實(shí)現(xiàn)解析jpg圖片鏈接(早就聽說python的第三庫多且牛)
正則表達(dá)式我在這就不多描述代碼如下
首先里面用到了requests 這個庫 掩浙。同理我們用時pip install requests安裝
source.txt 是我們把網(wǎng)頁源碼復(fù)制到txt里面解析的(人肉就是 手動操作哈哈花吟!后面會介紹不用自己復(fù)制粘貼源碼的操作)
解析完txt文件 使用正則表達(dá)式匹配出我們的圖片 最終把他寫入文件就可以了
第二種辦法
在meizi.py文件里面 代碼如下
這里用到了自帶的類庫 urllib2 以及BeautifulSoup?
當(dāng)然我們可以把代碼復(fù)制到txt解析然后處理 但是現(xiàn)在我們現(xiàn)在直接urlopen一個鏈接
然后使用BeautifulSoup 處理拿到soup
使用soup.findall 就可以解析到想到的數(shù)據(jù)
BeautifulSoup 的功能比較多大家可以自己百度一下 ?
這是我隨便爬的圖片 好玩弄的 ?我這只是做個備注 可能有點(diǎn)亂 有時間會整理下思路,大家隨便看看就好厨姚。