Python實戰(zhàn)計劃學(xué)習(xí)筆記（10）爬取手機號

任務(wù)描述

爬取58同城的手機號類目下氮凝，所有帖子的標(biāo)題和鏈接，存在數(shù)據(jù)庫中
設(shè)計爬取詳細(xì)信息的爬蟲2悍抑，將手機號賣家信息存入數(shù)據(jù)庫
3、使用技能：定位網(wǎng)頁元素捆姜，存儲數(shù)據(jù)庫传趾，讀取數(shù)據(jù)庫

我的代碼

from bs4 import BeautifulSoup
import requests
import time
import pymongo

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',
}

client = pymongo.MongoClient('localhost',27017)
test_58 = client['test_58']
url_list_phone_number = test_58['url_list_phone_number']
item_info_phone_number = test_58['item_info_phone_number']
channel = 'http://bj.58.com/shoujihao/'

#spider 1
def get_links_from(channel,pages):
    list_view = '{}pn{}/'.format(channel,str(pages))
    web_data = requests.get(list_view)
    time.sleep(1)
    soup = BeautifulSoup(web_data.text,'lxml')
    for link in soup.select('div.boxlist a.t'):
        item_link = link.get('href')
        item_title = link.strong.get_text()
        url_list_phone_number.insert_one({'title':item_title,'url':item_link})

#spider 2
def get_item_info(url):
    web_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(web_data.text,'lxml')
    title = soup.title.text
    if title[0] != '1':
        pass
    else:
        phone_number = soup.title.text[0:10]
        #price = soup.select('span.price')
        area = soup.select('div.su_con > a')
        contact = soup.select('span.f20')
        seller = soup.select('ul > ul > li > a')[0].get_text()
        if area:
            area = soup.select('div.su_con > a')[0].get_text()
        else:
            pass
        if contact:
            contact = soup.select('span.f20')[0].get_text().strip()
        else:
            pass
        item_info_phone_number.insert_one({'title': title, 'contact': contact, 'area': area,'seller':seller})

#爬取70頁在售手機號列表
for i in range(1,71,1):
    get_links_from(channel,i)
    print('Page ',i,' has been crawled.')

#爬取庫中所有手機號的賣家信息
n=0
for item in url_list_phone_number.find():
    get_item_info(item['url'])
    n+=1
    print('Item ',n,' has been processed')
    time.sleep(2)

運行結(jié)果

url_list_phone_number表的信息

1.jpg

item_info_phone_number的信息

2.jpg

最后編輯于：2017.12.04 02:45:02

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市泥技，隨后出現(xiàn)的幾起案子浆兰，更是在濱河造成了極大的恐慌，老刑警劉巖珊豹，帶你破解...
沈念sama閱讀 212,080評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件簸呈，死亡現(xiàn)場離奇詭異，居然都是意外死亡店茶，警方通過查閱死者的電腦和手機蜕便，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,422評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來贩幻，“玉大人轿腺，你說我怎么就攤上這事〈猿” “怎么了族壳？”我有些...
開封第一講書人閱讀 157,630評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長趣些。經(jīng)常有香客問我仿荆，道長，這世上最難降的妖魔是什么坏平？我笑而不...
開封第一講書人閱讀 56,554評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任拢操，我火速辦了婚禮，結(jié)果婚禮上舶替，老公的妹妹穿的比我還像新娘令境。我一直安慰自己，他們只是感情好顾瞪，可當(dāng)我...
茶點故事閱讀 65,662評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布展父。她就那樣靜靜地躺著返劲，像睡著了一般。火紅的嫁衣襯著肌膚如雪栖茉。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,856評論 1贊 290
城市分裂傳說
那天孵延，我揣著相機與錄音吕漂，去河邊找鬼。笑死尘应，一個胖子當(dāng)著我的面吹牛惶凝，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播犬钢，決...
沈念sama閱讀 39,014評論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼苍鲜，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了玷犹？” 一聲冷哼從身側(cè)響起混滔，我...
開封第一講書人閱讀 37,752評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎歹颓，沒想到半個月后坯屿，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,212評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡巍扛，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,541評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年领跛，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撤奸。...
茶點故事閱讀 38,687評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡吠昭，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出胧瓜，到底是詐尸還是另有隱情矢棚，我是刑警寧澤，帶...
沈念sama閱讀 34,347評論 4贊 331
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布贷痪，位于F島的核電站幻妓，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏劫拢。R本人自食惡果不足惜肉津，卻給世界環(huán)境...
茶點故事閱讀 39,973評論 3贊 315
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望舱沧。院中可真熱鬧妹沙，春花似錦、人聲如沸熟吏。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,777評論 0贊 21
一樁弒父案玄窝，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至悍引，卻和暖如春恩脂，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背趣斤。一陣腳步聲響...
開封第一講書人閱讀 32,006評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工俩块，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人浓领。一個月前我還...
沈念sama閱讀 46,406評論 2贊 360
代替公主和親
正文我出身青樓玉凯，卻偏偏與公主長得像，于是被迫代替她去往敵國和親联贩。傳聞我的和親對象是個殘疾皇子漫仆，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,576評論 2贊 349

Python實戰(zhàn)計劃學(xué)習(xí)筆記（10）爬取手機號

任務(wù)描述

我的代碼

運行結(jié)果

推薦閱讀更多精彩內(nèi)容