python爬取鏈家租房之獲取房屋的鏈接和頁面的詳細(xì)信息

因?yàn)槠谀┛荚嚨木壒世舶桑敬蛩阋粋€星期結(jié)束的爬蟲绿店,拖了很久妙痹,不過铸史,也有好處:之前寫的時候總是被反爬,這幾天復(fù)習(xí)之余寫了些反爬取的py code 下面發(fā)出來和大家探討
做了些反爬取的手段

隨機(jī)獲取一個headers

headers.py
__author__ = 'Lee'
import requests
import random #隨機(jī)數(shù)模塊

def requests_headers():
    head_connection = ['Keep-Alive','close']
    head_accept = ['text/html,application/xhtml+xml,*/*']
    head_accept_language = ['zh-CN,fr-FR;q=0.5','en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3']
    head_user_agent = ['Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
                       'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
                       'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
                       'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',
                       'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',
                       'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',
                       'Opera/9.27 (Windows NT 5.2; U; zh-cn)',
                       'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
                       'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',
                       'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',
                       'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',
                       'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',
                       'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',
                       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',
                       'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',
                       'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',
                       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',
                       'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',
                       'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']

    #header 為隨機(jī)產(chǎn)生一套由上邊信息的header文件
    header = {
        'Connection':head_connection[random.randrange(0,len(head_connection))],
        'Accept':head_accept[0],
        'Accept-Language':head_accept_language[random.randrange(0,len(head_accept_language))],
        'User-Agent':head_user_agent[random.randrange(0,len(head_user_agent))],
    }
    print('headers.py connection Success!')
    return header #返回值為 header這個字典




                # for i in range(100): #隨機(jī)產(chǎn)生100套信息
                #     print(requests_headers()) #打印
                #     #print(random.randrange(1,10))


從IP池隨機(jī)選擇個代理IP

ip_proxy.py
__author__ = 'Lee'
import random
ip_pool = [
'117.143.109.136:80'
]

def ip_proxy():
    ip = ip_pool[random.randrange(0,len(ip_pool))]
    proxy_ip = 'http://'+ip
    proxies = {'http':proxy_ip}
    print(proxies)
    return proxies

items_combination.py

__author__ = 'Lee'
from bs4 import BeautifulSoup
import requests
import pymongo
import time
from headers import  requests_headers
from ip_proxy import ip_proxy
client = pymongo.MongoClient('localhost',27017) #鏈接數(shù)據(jù)庫
ceshi = client['ceshi']
url_list = ceshi['url_list']
item_list = ceshi['item_info']
url_list1 = []

channel = 'https://bj.lianjia.com/zufang/dongcheng/'
#spider1 爬取房屋信息鏈接并用mongodb存儲
def get_pages_url(channel,pag):
    url = str(channel+'pg'+ pag)
    wb_data = requests.get(url,headers=requests_headers(),proxies=ip_proxy())
    soup = BeautifulSoup(wb_data.text,'lxml')
    time.sleep(1)
    no_data = '呣..沒有找到相關(guān)內(nèi)容怯伊,請您換個條件試試吧~'
    # 面包屑模塊
    # 面包屑 breadcrumbs
    bread_crumbs =soup.select('#house-lst > li')
    item_url = soup.select('#house-lst > li > div > h2 > a')
    blank_url = str(soup.find(text = no_data))
    if no_data != blank_url:
        for url in item_url:
            url1 = url.get('href')
            url_list1.append(url1)
            #url_list.insert_one({'url':url1})
            print(url1)
    else:
        pass
#get_pages_url(channel,'2')
# spider2 爬取詳細(xì)信息并用mongodb存儲
def get_massages(url):
    web_data = requests.get(url,headers=requests_headers(),proxies=ip_proxy())
    soup = BeautifulSoup(web_data.text,'lxml')
    title = (soup.title.text).split('|')[0] #房名
    address = soup.select('div.zf-room > p > a')[0].text  #地址
    price = soup.select(' div.price > span.total')[0].text + '元'
    area = (soup.select('div.zf-room > p ')[0].text).split(':')[-1]
    home_url = url
    print({'title':title ,
           'address':address,
           'price':price,
           'area':area,
           'home_url':home_url,
           })
    item_list.insert_one({'title':title ,
           'address':address,
           'price':price,
           'area':area,
           'home_url':home_url})
get_massages('https://bj.lianjia.com/zufang/101101635089.html')

'''
#house-lst > li > p
list-no-data clear
'''


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末琳轿,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子耿芹,更是在濱河造成了極大的恐慌崭篡,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,946評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吧秕,死亡現(xiàn)場離奇詭異琉闪,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)砸彬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評論 3 399
  • 文/潘曉璐 我一進(jìn)店門塘偎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來疗涉,“玉大人,你說我怎么就攤上這事吟秩≡劭郏” “怎么了?”我有些...
    開封第一講書人閱讀 169,716評論 0 364
  • 文/不壞的土叔 我叫張陵涵防,是天一觀的道長闹伪。 經(jīng)常有香客問我,道長壮池,這世上最難降的妖魔是什么偏瓤? 我笑而不...
    開封第一講書人閱讀 60,222評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮椰憋,結(jié)果婚禮上厅克,老公的妹妹穿的比我還像新娘。我一直安慰自己橙依,他們只是感情好证舟,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,223評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著窗骑,像睡著了一般女责。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上创译,一...
    開封第一講書人閱讀 52,807評論 1 314
  • 那天抵知,我揣著相機(jī)與錄音,去河邊找鬼软族。 笑死刷喜,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的立砸。 我是一名探鬼主播掖疮,決...
    沈念sama閱讀 41,235評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼仰禽!你這毒婦竟也來了氮墨?” 一聲冷哼從身側(cè)響起纺蛆,我...
    開封第一講書人閱讀 40,189評論 0 277
  • 序言:老撾萬榮一對情侶失蹤吐葵,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后桥氏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體温峭,經(jīng)...
    沈念sama閱讀 46,712評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,775評論 3 343
  • 正文 我和宋清朗相戀三年字支,在試婚紗的時候發(fā)現(xiàn)自己被綠了凤藏。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奸忽。...
    茶點(diǎn)故事閱讀 40,926評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖揖庄,靈堂內(nèi)的尸體忽然破棺而出栗菜,到底是詐尸還是另有隱情,我是刑警寧澤蹄梢,帶...
    沈念sama閱讀 36,580評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響摄狱,放射性物質(zhì)發(fā)生泄漏胖腾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,259評論 3 336
  • 文/蒙蒙 一幕袱、第九天 我趴在偏房一處隱蔽的房頂上張望暴备。 院中可真熱鬧,春花似錦们豌、人聲如沸涯捻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,750評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽汰瘫。三九已至,卻和暖如春擂煞,著一層夾襖步出監(jiān)牢的瞬間混弥,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,867評論 1 274
  • 我被黑心中介騙來泰國打工对省, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蝗拿,地道東北人。 一個月前我還...
    沈念sama閱讀 49,368評論 3 379
  • 正文 我出身青樓蒿涎,卻偏偏與公主長得像哀托,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子劳秋,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,930評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 1 前言 作為一名合格的數(shù)據(jù)分析師仓手,其完整的技術(shù)知識體系必須貫穿數(shù)據(jù)獲取、數(shù)據(jù)存儲玻淑、數(shù)據(jù)提取嗽冒、數(shù)據(jù)分析、數(shù)據(jù)挖掘补履、...
    whenif閱讀 18,085評論 45 523
  • 爬蟲文章 in 簡書程序員專題: like:128-Python 爬取落網(wǎng)音樂 like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 21,760評論 4 411
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理添坊,服務(wù)發(fā)現(xiàn),斷路器箫锤,智...
    卡卡羅2017閱讀 134,720評論 18 139
  • 沃爾瑪是全球最大的實(shí)體商品零售商,可是近兩年遭受電商的沖擊也是最大的阳准,特別是電商平臺如雨后春筍般崛起氛堕,用戶更愿意通...
    耿彪閱讀 527評論 0 3
  • 1 最近一周沒有早起,因?yàn)槲业聂[鐘聲會影響到兒子野蝇,對他會形成一定的生物鐘岔擂,有一次,他在鬧鐘響之前醒了浪耘。 我以為我懈...
    孫曉麗閱讀 137評論 0 0