1212完成爬去58

總結(jié)，用了 8300 多秒，終于獲得了166035 條數(shù)據(jù) 谒撼。

成果展示

pa58dedao.png

代碼幾個文件粘在一起了

#!/usr/bin/python3
# coding=utf-8
# jerryLuan
#filename=channel_extact.py
from bs4 import BeautifulSoup
import requests


start_url = 'http://bj.58.com/sale.shtml'
url_host = 'http://bj.58.com'

def get_index_url(url):
    # url = start_url
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    links = soup.select('ul.ym-submnu > li > b > a')  #test pass 20161211
    for link in links:
        page_url = url_host + link.get('href')
        print(page_url)

get_index_url(start_url)
#http://bj.58.com/shoujihao/  I donot want
#http://bj.58.com/tiaozao/

channel_list = '''
    http://bj.58.com/shouji/
    http://bj.58.com/tongxunyw/
    http://bj.58.com/danche/
    http://bj.58.com/fzixingche/
    http://bj.58.com/diandongche/
    http://bj.58.com/sanlunche/
    http://bj.58.com/peijianzhuangbei/
    http://bj.58.com/diannao/
    http://bj.58.com/bijiben/
    http://bj.58.com/pbdn/
    http://bj.58.com/diannaopeijian/
    http://bj.58.com/zhoubianshebei/
    http://bj.58.com/shuma/
    http://bj.58.com/shumaxiangji/
    http://bj.58.com/mpsanmpsi/
    http://bj.58.com/youxiji/
    http://bj.58.com/jiadian/
    http://bj.58.com/dianshiji/
    http://bj.58.com/ershoukongtiao/
    http://bj.58.com/xiyiji/
    http://bj.58.com/bingxiang/
    http://bj.58.com/binggui/
    http://bj.58.com/chuang/
    http://bj.58.com/ershoujiaju/
    http://bj.58.com/bangongshebei/
    http://bj.58.com/diannaohaocai/
    http://bj.58.com/bangongjiaju/
    http://bj.58.com/ershoushebei/
    http://bj.58.com/yingyou/
    http://bj.58.com/yingeryongpin/
    http://bj.58.com/muyingweiyang/
    http://bj.58.com/muyingtongchuang/
    http://bj.58.com/yunfuyongpin/
    http://bj.58.com/fushi/
    http://bj.58.com/nanzhuang/
    http://bj.58.com/fsxiemao/
    http://bj.58.com/xiangbao/
    http://bj.58.com/meirong/
    http://bj.58.com/yishu/
    http://bj.58.com/shufahuihua/
    http://bj.58.com/zhubaoshipin/
    http://bj.58.com/yuqi/
    http://bj.58.com/tushu/
    http://bj.58.com/tushubook/
    http://bj.58.com/wenti/
    http://bj.58.com/yundongfushi/
    http://bj.58.com/jianshenqixie/
    http://bj.58.com/huju/
    http://bj.58.com/qiulei/
    http://bj.58.com/yueqi/
    http://bj.58.com/chengren/
    http://bj.58.com/nvyongpin/
    http://bj.58.com/qinglvqingqu/
    http://bj.58.com/qingquneiyi/
    http://bj.58.com/chengren/
    http://bj.58.com/xiaoyuan/
    http://bj.58.com/ershouqiugou/
'''
---
#!/usr/bin/python3
# coding=utf-8
#jerryLuan
#filename=counts.py
import time
from pages_parsing import url_list

i=0



while True:
    i+=1
    print(str(i*5) + "s ===> " + str(url_list.find().count()))
    time.sleep(5)


'''

while True:
    i += 1
    print(str(i)+ "kkkk"+ str(i*2))
    if i>22:
        break

'''
-----
#!/usr/bin/python3
# coding=utf-8
#jerryLuan
#filename=main.py
from multiprocessing import Pool
from channel_extact  import channel_list
from pages_parsing   import get_links_from


def get_all_links_from(channel):
    for i in range(1,111):
        get_links_from(channel,i)


if __name__ == '__main__':
    pool = Pool()
    # pool = Pool(processes=6)
    pool.map(get_all_links_from,channel_list.split())
-----
#!/usr/bin/python3
# coding=utf-8
#jerryLuan
#filename=pageers_parsing.py

from bs4 import BeautifulSoup
import requests
import time
import pymongo

client = pymongo.MongoClient('localhost', 27017)
ceshi = client['ceshi']
url_list = ceshi['url_list4']
item_info = ceshi['item_info4']


# 在最左邊是在python 中對象的名稱身弊，后面的是在數(shù)據(jù)庫中的名稱
# spider 1
def get_links_from(channel, pages, who_sells=0):
    # td.t 沒有這個就終止
    list_view = '{}{}/pn{}/'.format(channel, str(who_sells), str(pages))
    wb_data = requests.get(list_view)
    time.sleep(1)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    if soup.find('td', 't'):
        for link in soup.select('td.t a.t'):
            item_link = link.get('href').split('?')[0]
            url_list.insert_one({'url': item_link})
            print(item_link)
            # return urls
    else:
        # It's the last page !
        pass

# spider 2
def get_item_info(url):
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    no_longer_exist = '404' in soup.find('script', type="text/javascript").get('src').split('/')
    if no_longer_exist:
        pass
    else:
        title = soup.title.text
        price = soup.select('span.price.c_f50')[0].text
        date = soup.select('.time')[0].text
        area = list(soup.select('.c_25d a')[0].stripped_strings) if soup.find_all('span', 'c_25d') else None
        item_info.insert_one({'title': title, 'price': price, 'date': date, 'area': area, 'url': url})
        print({'title': title, 'price': price, 'date': date, 'area': area, 'url': url})

最后編輯于：2017.12.05 01:24:12

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市典格，隨后出現(xiàn)的幾起案子岛宦，更是在濱河造成了極大的恐慌，老刑警劉巖耍缴，帶你破解...
沈念sama閱讀 207,248評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件砾肺，死亡現(xiàn)場離奇詭異齐佳，居然都是意外死亡，警方通過查閱死者的電腦和手機债沮，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,681評論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門炼吴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人疫衩，你說我怎么就攤上這事硅蹦。” “怎么了闷煤？”我有些...
開封第一講書人閱讀 153,443評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵童芹，是天一觀的道長。經(jīng)常有香客問我鲤拿，道長假褪，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,475評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任近顷，我火速辦了婚禮生音，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘窒升。我一直安慰自己缀遍，他們只是感情好，可當我...
茶點故事閱讀 64,458評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布饱须。她就那樣靜靜地躺著域醇，像睡著了一般。火紅的嫁衣襯著肌膚如雪蓉媳。梳的紋絲不亂的頭發(fā)上譬挚，一...
開封第一講書人閱讀 49,185評論 1贊 284
城市分裂傳說
那天，我揣著相機與錄音酪呻，去河邊找鬼减宣。笑死，一個胖子當著我的面吹牛号杠，可吹牛的內(nèi)容都是我干的蚪腋。我是一名探鬼主播，決...
沈念sama閱讀 38,451評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼姨蟋，長吁一口氣：“原來是場噩夢啊……” “哼屉凯！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起眼溶，我...
開封第一講書人閱讀 37,112評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤悠砚，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后堂飞，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體灌旧，經(jīng)...
沈念sama閱讀 43,609評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡绑咱，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,083評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了枢泰。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片描融。...
茶點故事閱讀 38,163評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖衡蚂，靈堂內(nèi)的尸體忽然破棺而出窿克，到底是詐尸還是另有隱情，我是刑警寧澤毛甲，帶...
沈念sama閱讀 33,803評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布年叮，位于F島的核電站，受9級特大地震影響玻募，放射性物質(zhì)發(fā)生泄漏只损。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,357評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一七咧、第九天我趴在偏房一處隱蔽的房頂上張望跃惫。院中可真熱鬧，春花似錦坑雅、人聲如沸辈挂。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,357評論 0贊 19
一樁弒父案裹粤，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至蜂林，卻和暖如春遥诉，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背噪叙。一陣腳步聲響...
開封第一講書人閱讀 31,590評論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工矮锈，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人睁蕾。一個月前我還...
沈念sama閱讀 45,636評論 2贊 355
代替公主和親
正文我出身青樓苞笨，卻偏偏與公主長得像，于是被迫代替她去往敵國和親子眶。傳聞我的和親對象是個殘疾皇子瀑凝，可洞房花燭夜當晚...
茶點故事閱讀 42,925評論 2贊 344

1212完成爬去58

推薦閱讀更多精彩內(nèi)容