pyhone爬蟲簡單使用

為了采集到大量圖片進行圖片分類的遷移學習斜脂,簡單的學習下python爬蟲技術(shù)削解,方便采集到大量圖片提高效率

1.獲取整個頁面數(shù)據(jù)

#coding=utf-8

import urllib

def getHtml(url):

? ? page = urllib.urlopen(url)

? ? html = page.read()

? ? return html

html = getHtml("http://tieba.baidu.com/p/2738151262")

print html

2.篩選頁面中想要的數(shù)據(jù)

import re

import urllib

def getHtml(url):

? ? page = urllib.urlopen(url)

? ? html = page.read()

? ? return htmldef getImg(html):

? ? reg = r'src="(.+?\.jpg)" pic_ext'? ??

? ? imgre = re.compile(reg)

? ? imglist = re.findall(imgre,html)

? ? return imglist? ? ?

html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

3.將頁面篩選的數(shù)據(jù)保存到本地

#coding=utf-8

import urllib

import re

def getHtml(url):

? ? page = urllib.urlopen(url)

? ? html = page.read()

? ? return htmldef getImg(html):

? ? reg = r'src="(.+?\.jpg)" pic_ext'? ??

? ? imgre = re.compile(reg)

? ? imglist = re.findall(imgre,html)

? ? x = 0

? ? for imgurl in imglist:

? ? ? ? urllib.urlretrieve(imgurl,'%s.jpg'% x)

? ? ? ? x+=1

html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

詳細解析看此鏈接

4.在簡單學習python爬蟲之后掠拳,自己寫的小例子

#!/usr/bin/python

#-*- coding: utf-8 -*-

#encoding=utf-8

import urllib2

import urllib

import os

from BeautifulSoup import BeautifulSoup

from urlparse import urlparse

def getAllImageLink():

? ? html = urllib2.urlopen('http://www.xiaohuar.com').read()

? ? '''

? ? ? ? fromEncoding參數(shù)說明

? ? ? ? 參數(shù)指定為:gb18030

? ? ? ? 解決問題:出現(xiàn)中文亂碼的現(xiàn)象

? ? '''

? ? soup = BeautifulSoup(html,fromEncoding="gb18030")

? ? liResult = soup.findAll('li')

? ? x=0

? ? for li in liResult:

? ? ? ? imageEntityArray = li.findAll('img')

? ? ? ? if len(imageEntityArray):

? ? ? ? ? ? for image in imageEntityArray:

? ? ? ? ? ? ? ? link = image.get('lazysrc')

? ? ? ? ? ? ? ? imageName = image.get('alt')

? ? ? ? ? ? ? ? obj = urlparse(link)

? ? ? ? ? ? ? ? scheme = obj.scheme

? ? ? ? ? ? ? ? # 篩選圖片并保存

? ? ? ? ? ? ? ? if link and imageName and scheme=='http' and obj.hostname=='www.xiaohuar.com':

? ? ? ? ? ? ? ? ? ? print link

? ? ? ? ? ? ? ? ? ? print imageName

? ? ? ? ? ? ? ? ? ? x+=1

? ? ? ? ? ? ? ? ? ? urllib.urlretrieve(link,'%s.jpg' % imageName)


if __name__ == '__main__':

? ? getAllImageLink()

參考鏈接

解決BeautifulSoup中文亂碼

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末搅幅,一起剝皮案震驚了整個濱河市考抄,隨后出現(xiàn)的幾起案子展姐,更是在濱河造成了極大的恐慌,老刑警劉巖犁柜,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件洲鸠,死亡現(xiàn)場離奇詭異,居然都是意外死亡馋缅,警方通過查閱死者的電腦和手機扒腕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來萤悴,“玉大人瘾腰,你說我怎么就攤上這事「猜模” “怎么了蹋盆?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長硝全。 經(jīng)常有香客問我栖雾,道長,這世上最難降的妖魔是什么伟众? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任析藕,我火速辦了婚禮,結(jié)果婚禮上凳厢,老公的妹妹穿的比我還像新娘账胧。我一直安慰自己,他們只是感情好数初,可當我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布找爱。 她就那樣靜靜地躺著梗顺,像睡著了一般泡孩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上寺谤,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天仑鸥,我揣著相機與錄音,去河邊找鬼变屁。 笑死眼俊,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的粟关。 我是一名探鬼主播疮胖,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了澎灸?” 一聲冷哼從身側(cè)響起院塞,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎性昭,沒想到半個月后拦止,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡糜颠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年汹族,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片其兴。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡顶瞒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出忌警,到底是詐尸還是另有隱情搁拙,我是刑警寧澤,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布法绵,位于F島的核電站箕速,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏朋譬。R本人自食惡果不足惜盐茎,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望徙赢。 院中可真熱鬧字柠,春花似錦、人聲如沸狡赐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽枕屉。三九已至常柄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間搀擂,已是汗流浹背西潘。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留哨颂,地道東北人喷市。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像威恼,于是被迫代替她去往敵國和親品姓。 傳聞我的和親對象是個殘疾皇子寝并,可洞房花燭夜當晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容