Python06-爬取番號網站圖片(未完成)辈毯,編碼亂碼,防爬辦法搜贤。

1-19日更新谆沃。
今天打開電腦,又跑了一遍代碼仪芒。發(fā)現唁影,整個87頁都能下載下來了耕陷,估計是ip解封了,說明我編寫的代碼据沈,能運行S茨!锌介!

結果如圖:

Paste_Image.png

不過嗜诀,也發(fā)現了一個問題。圖片中的86頁等是沒有被解析成功的孔祸,似乎直接跳過了隆敢?這是怎么個情況?我還沒有想明白崔慧。拂蝎。。

--------------------------------------------------分割線-------------------

找了一個番號網站練練手尊浪,發(fā)現還有一些難度。

首先封救,我要實現的是拇涤,將網站上每個女憂的圖片下載到本地文件夾并且把圖片名稱改成女優(yōu)名字。

網站是這樣的:http://www.fanh.cc/fanhao/index_19.html

遇到的幾個問題誉结。
第一鹅士,編碼問題。
網頁編碼默認是gb2312的惩坑,跟平時接觸的不一樣掉盅。
最后結局辦法也是出乎我意料。用到了text和content屬性的區(qū)別以舒。
第二趾痘,就是網站封ip。
我初次爬的時候蔓钟,可以爬到第26頁(一共89頁)永票,但是后來重新爬的時候明顯爬不動了,爬個幾頁就會停止滥沫。我估計就是他們這個網站限制了我的ip侣集,屏蔽我了,然后我換了代理ip兰绣,并且加上了headers世分,就可以正常訪問了。但是依舊沒辦法爬取總共89頁缀辩,這也是一個問題臭埋。值得深入研究一下踪央。
第三,就是對“urllib.request.urlretrieve()”這個方法中的參數斋泄,深入研究了一下杯瞻,發(fā)現還有一些門道的。

不說了炫掐,開始貼代碼魁莉。其實代碼能夠正常運行。有一點募胃,沒有解決:如何突破網站屏蔽的限制旗唁?


#!/usr/bin/env python



# 最終目標。下載網頁所有女憂的圖片到本地,并且圖片名字改成對應的女憂名字痹束。第一,到最后一頁检疫。--最后,完美達成此目標。

# 接下來新的挑戰(zhàn)祷嘶。
'''
01,添加計數器,到了第幾頁,第X張圖片,都會打印出來屎媳。
02,多線程或者多進程爬去,提高速度。
03,加一個進度條论巍。

#目前運行到第12也就暫停了,為何??? 有的女憂的名字比較特殊,AZUMI/上原安住,結果弄得下載到文本有問題烛谊。
FileNotFoundError: [Errno 2] No such file or directory: '/Users/pro/Desktop/a2/AZUMI/上原安住.jpg',需要研究一下path參數了
答:這個問題基本解決了。
但是,出現了個新問題,似乎ip被屏蔽了,沒辦法流暢下載圖片了,原先能下載15頁,但是現在不用代理ip只能下載到4頁左右嘉汰。
'''

import requests,time
from bs4 import BeautifulSoup
import urllib.request
path='/Users/pro/Desktop/a2/'

url = 'http://www.fanh.cc/fanhao/index_2.html'
proxies = {"http": "120.35.30.178:80"}

def download(url,title):
    urllib.request.urlretrieve(url,path + (title.split('/')[-1] + '.jpg'))
#圖片名字這里丹禀,我花了很多心思,發(fā)現原來這里可以用到split屬性鞋怀,因為有些女優(yōu)的名字是XX/xx這樣的格式双泪,如果不修改會報錯。現在改過來了密似,這就沒問題了焙矛。
    time.sleep(2)
    #print("Done")


def download_pic(url):
    headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36 QQBrowser/4.1.4132.400'
    }
    y=1
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.content,'lxml')
    #這里要注意text屬性與content屬性的區(qū)別。
    #text屬性返回的是Unicodex型的數據残腌。而content返回的是二進制類型的數據薄扁。此處,用content就不會有亂碼,而text屬性就不行。
    titles = soup.select('body > div.list > ul > li > p > a')
    pic_links = soup.select('body > div.list > ul > li > a > img')
    for title,pic_link in zip(titles,pic_links):
        data = {
            'title': title.get_text(),
            'link' : 'http://www.fanh.cc'+ pic_link.get('src') #fanh.cc才是正確的網址,這里之前寫的是fanhao.cc,出錯過废累。
        }
        #運行到這個時候,data是一個字典結果邓梅。接下來的download函數如何調用字典中的數據是個難題!
        download(data['link'],data['title'])
        print('第%s張圖片'%y)
        y=y+1

        print(data)
#接下來,運行程序邑滨,如下
all_page_links=['http://www.fanh.cc/fanhao/index_{}.html'.format(number) for number in range(2,89)]
p=1
for single_link in all_page_links:
    download_pic(single_link) #這里也出現了一個小失誤,應該填寫single_link的,結果我寫了url測試半天都不正確日缨。尷尬。
    print('第{}頁'.format(p))
    p=p+1

下面是運行結果:

Paste_Image.png
Paste_Image.png
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末掖看,一起剝皮案震驚了整個濱河市匣距,隨后出現的幾起案子面哥,更是在濱河造成了極大的恐慌,老刑警劉巖毅待,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尚卫,死亡現場離奇詭異,居然都是意外死亡尸红,警方通過查閱死者的電腦和手機吱涉,發(fā)現死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來外里,“玉大人怎爵,你說我怎么就攤上這事≈鸦龋” “怎么了鳖链?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長墩莫。 經常有香客問我芙委,道長,這世上最難降的妖魔是什么狂秦? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任灌侣,我火速辦了婚禮,結果婚禮上故痊,老公的妹妹穿的比我還像新娘顶瞳。我一直安慰自己玖姑,他們只是感情好愕秫,可當我...
    茶點故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著焰络,像睡著了一般戴甩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上闪彼,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天甜孤,我揣著相機與錄音,去河邊找鬼畏腕。 笑死缴川,一個胖子當著我的面吹牛,可吹牛的內容都是我干的描馅。 我是一名探鬼主播把夸,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼铭污!你這毒婦竟也來了恋日?” 一聲冷哼從身側響起膀篮,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎岂膳,沒想到半個月后誓竿,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡谈截,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年筷屡,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片傻盟。...
    茶點故事閱讀 39,764評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡速蕊,死狀恐怖,靈堂內的尸體忽然破棺而出娘赴,到底是詐尸還是另有隱情规哲,我是刑警寧澤,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布诽表,位于F島的核電站唉锌,受9級特大地震影響,放射性物質發(fā)生泄漏竿奏。R本人自食惡果不足惜袄简,卻給世界環(huán)境...
    茶點故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望泛啸。 院中可真熱鬧绿语,春花似錦、人聲如沸候址。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽岗仑。三九已至匹耕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間荠雕,已是汗流浹背稳其。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留炸卑,地道東北人既鞠。 一個月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像盖文,于是被迫代替她去往敵國和親嘱蛋。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,665評論 2 354

推薦閱讀更多精彩內容

  • 一、前言 這是我第一次寫文章浑槽,作為一個非計算機蒋失,編程類專業(yè)的大二學生侧甫,我希望能夠給像我這樣的入門的朋友一些幫助移剪,也...
    梅花鹿數據閱讀 2,545評論 5 11
  • 20170908周慧心賞第25天 親愛的老公,親愛的女兒舍咖,親愛的自己镊靴,今晚我們仨來了一場親子觀影活動铣卡,蜘蛛...
    hmzhou閱讀 276評論 0 4
  • 生而為人,最大的驚喜在于擁有思維可以感受到并不具象的愛偏竟,而最大的不幸也在于擁有思維煮落,可以將你隨時推入萬丈深淵。 所...
    游由310閱讀 168評論 0 0
  • 首先感謝bmob 提供了一個這么好的快捷開發(fā)環(huán)境踊谋,在沒有服務器的情況下 我們可以用bmob做到蝉仇。比如注冊登錄。 注...
    一只大黑狗閱讀 888評論 0 1
  • 人生不過長百年殖蚕,問君能否陪我大醉三萬六千場轿衔? 換來世,你我繞床弄青梅睦疫,捧心肝害驹。 機關算盡,爾虞我詐蛤育,權柄滔天宛官。 榮...
    待汝豪杰只是凡夫閱讀 462評論 0 0