1212完成爬去58

總結(jié),用了 8300 多秒,終于獲得了166035 條數(shù)據(jù) 谒撼。

成果展示

pa58dedao.png

代碼 幾個文件粘在一起了

#!/usr/bin/python3
# coding=utf-8
# jerryLuan
#filename=channel_extact.py
from bs4 import BeautifulSoup
import requests


start_url = 'http://bj.58.com/sale.shtml'
url_host = 'http://bj.58.com'

def get_index_url(url):
    # url = start_url
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    links = soup.select('ul.ym-submnu > li > b > a')  #test pass 20161211
    for link in links:
        page_url = url_host + link.get('href')
        print(page_url)

get_index_url(start_url)
#http://bj.58.com/shoujihao/  I donot want
#http://bj.58.com/tiaozao/

channel_list = '''
    http://bj.58.com/shouji/
    http://bj.58.com/tongxunyw/
    http://bj.58.com/danche/
    http://bj.58.com/fzixingche/
    http://bj.58.com/diandongche/
    http://bj.58.com/sanlunche/
    http://bj.58.com/peijianzhuangbei/
    http://bj.58.com/diannao/
    http://bj.58.com/bijiben/
    http://bj.58.com/pbdn/
    http://bj.58.com/diannaopeijian/
    http://bj.58.com/zhoubianshebei/
    http://bj.58.com/shuma/
    http://bj.58.com/shumaxiangji/
    http://bj.58.com/mpsanmpsi/
    http://bj.58.com/youxiji/
    http://bj.58.com/jiadian/
    http://bj.58.com/dianshiji/
    http://bj.58.com/ershoukongtiao/
    http://bj.58.com/xiyiji/
    http://bj.58.com/bingxiang/
    http://bj.58.com/binggui/
    http://bj.58.com/chuang/
    http://bj.58.com/ershoujiaju/
    http://bj.58.com/bangongshebei/
    http://bj.58.com/diannaohaocai/
    http://bj.58.com/bangongjiaju/
    http://bj.58.com/ershoushebei/
    http://bj.58.com/yingyou/
    http://bj.58.com/yingeryongpin/
    http://bj.58.com/muyingweiyang/
    http://bj.58.com/muyingtongchuang/
    http://bj.58.com/yunfuyongpin/
    http://bj.58.com/fushi/
    http://bj.58.com/nanzhuang/
    http://bj.58.com/fsxiemao/
    http://bj.58.com/xiangbao/
    http://bj.58.com/meirong/
    http://bj.58.com/yishu/
    http://bj.58.com/shufahuihua/
    http://bj.58.com/zhubaoshipin/
    http://bj.58.com/yuqi/
    http://bj.58.com/tushu/
    http://bj.58.com/tushubook/
    http://bj.58.com/wenti/
    http://bj.58.com/yundongfushi/
    http://bj.58.com/jianshenqixie/
    http://bj.58.com/huju/
    http://bj.58.com/qiulei/
    http://bj.58.com/yueqi/
    http://bj.58.com/chengren/
    http://bj.58.com/nvyongpin/
    http://bj.58.com/qinglvqingqu/
    http://bj.58.com/qingquneiyi/
    http://bj.58.com/chengren/
    http://bj.58.com/xiaoyuan/
    http://bj.58.com/ershouqiugou/
'''
---
#!/usr/bin/python3
# coding=utf-8
#jerryLuan
#filename=counts.py
import time
from pages_parsing import url_list

i=0



while True:
    i+=1
    print(str(i*5) + "s ===> " + str(url_list.find().count()))
    time.sleep(5)


'''

while True:
    i += 1
    print(str(i)+ "kkkk"+ str(i*2))
    if i>22:
        break

'''
-----
#!/usr/bin/python3
# coding=utf-8
#jerryLuan
#filename=main.py
from multiprocessing import Pool
from channel_extact  import channel_list
from pages_parsing   import get_links_from


def get_all_links_from(channel):
    for i in range(1,111):
        get_links_from(channel,i)


if __name__ == '__main__':
    pool = Pool()
    # pool = Pool(processes=6)
    pool.map(get_all_links_from,channel_list.split())
-----
#!/usr/bin/python3
# coding=utf-8
#jerryLuan
#filename=pageers_parsing.py

from bs4 import BeautifulSoup
import requests
import time
import pymongo

client = pymongo.MongoClient('localhost', 27017)
ceshi = client['ceshi']
url_list = ceshi['url_list4']
item_info = ceshi['item_info4']


# 在最左邊是在python 中對象的名稱身弊,后面的是在數(shù)據(jù)庫中的名稱
# spider 1
def get_links_from(channel, pages, who_sells=0):
    # td.t 沒有這個就終止
    list_view = '{}{}/pn{}/'.format(channel, str(who_sells), str(pages))
    wb_data = requests.get(list_view)
    time.sleep(1)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    if soup.find('td', 't'):
        for link in soup.select('td.t a.t'):
            item_link = link.get('href').split('?')[0]
            url_list.insert_one({'url': item_link})
            print(item_link)
            # return urls
    else:
        # It's the last page !
        pass

# spider 2
def get_item_info(url):
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    no_longer_exist = '404' in soup.find('script', type="text/javascript").get('src').split('/')
    if no_longer_exist:
        pass
    else:
        title = soup.title.text
        price = soup.select('span.price.c_f50')[0].text
        date = soup.select('.time')[0].text
        area = list(soup.select('.c_25d a')[0].stripped_strings) if soup.find_all('span', 'c_25d') else None
        item_info.insert_one({'title': title, 'price': price, 'date': date, 'area': area, 'url': url})
        print({'title': title, 'price': price, 'date': date, 'area': area, 'url': url})



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市典格,隨后出現(xiàn)的幾起案子岛宦,更是在濱河造成了極大的恐慌,老刑警劉巖耍缴,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件砾肺,死亡現(xiàn)場離奇詭異齐佳,居然都是意外死亡,警方通過查閱死者的電腦和手機债沮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進店門炼吴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人疫衩,你說我怎么就攤上這事硅蹦。” “怎么了闷煤?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵童芹,是天一觀的道長。 經(jīng)常有香客問我鲤拿,道長假褪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任近顷,我火速辦了婚禮生音,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘窒升。我一直安慰自己缀遍,他們只是感情好,可當我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布饱须。 她就那樣靜靜地躺著域醇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蓉媳。 梳的紋絲不亂的頭發(fā)上譬挚,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天,我揣著相機與錄音酪呻,去河邊找鬼减宣。 笑死,一個胖子當著我的面吹牛号杠,可吹牛的內(nèi)容都是我干的蚪腋。 我是一名探鬼主播,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼姨蟋,長吁一口氣:“原來是場噩夢啊……” “哼屉凯!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起眼溶,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤悠砚,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后堂飞,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體灌旧,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡绑咱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了枢泰。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片描融。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖衡蚂,靈堂內(nèi)的尸體忽然破棺而出窿克,到底是詐尸還是另有隱情,我是刑警寧澤毛甲,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布年叮,位于F島的核電站,受9級特大地震影響玻募,放射性物質(zhì)發(fā)生泄漏只损。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一七咧、第九天 我趴在偏房一處隱蔽的房頂上張望跃惫。 院中可真熱鬧,春花似錦坑雅、人聲如沸辈挂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蜂林,卻和暖如春遥诉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背噪叙。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工矮锈, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人睁蕾。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓苞笨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親子眶。 傳聞我的和親對象是個殘疾皇子瀑凝,可洞房花燭夜當晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容