麻瓜編程·python實戰(zhàn)·1-5作業(yè):爬58轉(zhuǎn)轉(zhuǎn)

我的成果

運行結(jié)果

我的代碼

from bs4 import  BeautifulSoup
import requests, time, random, json

# 換代理古戴,參考現(xiàn)成的:https://mugglecoding.gitbooks.io/qa/content/ru_he_huo_qu_dai_li_ip.html
resp = requests.get("http://tor1024.com/static/proxy_pool.txt")
ips_txt = resp.text.strip().split("\n")
ips = []
for i in ips_txt:
    try:
        k = json.loads(i)
        ips.append(k)
    except Exception as e:
        print(e)

# 58搜索頁面
urls = ['http://bj.58.com/pbdn/0/pn{}/'.format(str(i)) for i in range(1,4)]
headers = {'headers':'Mozilla/5.0 (Windows NT 6.1; WOW64) \ '
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

# 從轉(zhuǎn)轉(zhuǎn)頁面爬取二手商品信息
def zhuanzhuan_data(url):
    # 列表用來整理商品標簽(商品vs標簽:1對多)
    total_tags = []
    try:
        web_data = requests.get(url, headers=headers, proxies=random.choice(ips),timeout=6)
        soup = BeautifulSoup(web_data.text, 'lxml')
        category = soup.select('div[class="breadCrumb f12"] \> \ '
                               'span:nth-of-type(4) > a')[0].get_text().lstrip()
        subject = soup.select('h1[class="info_titile"]')[0].get_text()
        page_view = soup.select('span[class="look_time"]')[0].get_text()
        price = soup.select('span[class="price_now"] > i')[0].get_text()
        region = soup.select('div[class="palce_li"] > span > i')[0].get_text()
        tags = soup.select('div[class="biaoqian_li"] > span')

        # 標簽需要單獨整理一下
        for tag in tags:
            tag = tag.get_text()
            total_tags.append(tag)

        # 匯總信息到一個詞典
        data = {
            'category':category,
            'title':subject,
            'view':page_view,
            'price':price,
            'region':region,
            'tags':total_tags
        }

        # 打印詞典劲赠,把詞典傳入“寫入txt”的函數(shù)
        print(data)
        create_txt(data)

    except Exception as e:
        print(e)

def create_txt(data):
    f = open(r'c:/users/administrator/desktop/zz.txt', 'a')
    f.write(str(data) + '\n' + '-'*70 + '\n')
    f.close()

# 從58搜索頁面獲取二手商品鏈接
def get_zz(url):
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')
    zz_urls = soup.select('tr.zzinfo > td.img > a')

    for zz_url in zz_urls:
        print('這是第',zz_urls.index(zz_url) + 1,'條轉(zhuǎn)轉(zhuǎn)')
        zz_url = zz_url.get('href')
        zhuanzhuan_data(zz_url)

# 【#####起點#####】
for url in urls:
    print('#####第',urls.index(url) + 1,'頁#####')
    print('-'*60)
    get_zz(url)
    print('-'*60)

我的感想:

  • 這個作業(yè)做完了,但感覺有點勉強峡竣,而且滿是疑惑靠抑,沒有清爽的感覺,可能是“困難”帶來的挫敗感還沒消失吧
  • 這個作業(yè)花了很久
  • 其實實現(xiàn)爬蟲功能的大部分代碼我中午就寫了得差不多了(大約花了40分鐘)澎胡,但是午休起來之后我怎么都爬不出完整的3頁150條數(shù)據(jù),因為老是報錯:

  • 報錯
  • 從request.get()什么參數(shù)都沒加娩鹉,到試headers攻谁,試proxies……花了很久,其中包含了自我懷疑的放空時間弯予。<a>換代理的代碼以后可以隨便抄了呃</a>

  • 總體來說應(yīng)該是花了<a>四個半小時</a>左右的時間吧(太恐怖了)戚宦。

  • 寫入到 txt 的時候,用 'w+' 就只能寫1條數(shù)據(jù)锈嫩,直到用了 'a' 受楼,問題解決了。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末呼寸,一起剝皮案震驚了整個濱河市艳汽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌对雪,老刑警劉巖河狐,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異瑟捣,居然都是意外死亡馋艺,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進店門迈套,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捐祠,“玉大人,你說我怎么就攤上這事桑李□庵” “怎么了窿给?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長星岗。 經(jīng)常有香客問我填大,道長,這世上最難降的妖魔是什么俏橘? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任允华,我火速辦了婚禮,結(jié)果婚禮上寥掐,老公的妹妹穿的比我還像新娘靴寂。我一直安慰自己,他們只是感情好召耘,可當我...
    茶點故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布百炬。 她就那樣靜靜地躺著,像睡著了一般污它。 火紅的嫁衣襯著肌膚如雪剖踊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天衫贬,我揣著相機與錄音德澈,去河邊找鬼。 笑死固惯,一個胖子當著我的面吹牛梆造,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播葬毫,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼贴捡!你這毒婦竟也來了忽肛?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤烂斋,失蹤者是張志新(化名)和其女友劉穎麻裁,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體源祈,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡煎源,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了香缺。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片手销。...
    茶點故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖图张,靈堂內(nèi)的尸體忽然破棺而出锋拖,到底是詐尸還是另有隱情诈悍,我是刑警寧澤,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布兽埃,位于F島的核電站侥钳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏柄错。R本人自食惡果不足惜舷夺,卻給世界環(huán)境...
    茶點故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望售貌。 院中可真熱鬧给猾,春花似錦、人聲如沸颂跨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽恒削。三九已至池颈,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間钓丰,已是汗流浹背躯砰。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留斑粱,地道東北人弃揽。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓脯爪,卻偏偏與公主長得像则北,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子痕慢,可洞房花燭夜當晚...
    茶點故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容