爬蟲作業(yè)3

課程作業(yè)

選擇第二次課程作業(yè)中選中的網址
爬取該頁面中的所有可以爬取的元素哗讥，至少要求爬取文章主體內容
可以嘗試用lxml爬取

在完成這節(jié)課的過程中遇到許多問題：

環(huán)境問題：電腦安裝的是python 3.x，老師的demo使用python2.7，如何在anaconda中進行環(huán)境切換宵喂。
在anaconda中切換py2和py3

conda create env_name list of packages
conda create -n py2 python=2.7 pandas
進入名為env_name的環(huán)境
source activate env_name
退出當前環(huán)境
source deactivate
在windows系統中，使用activate env_name 和 deactivate env_name進入和退出
刪除名為env_name的環(huán)境
conda env romove -n env_name
顯示所有環(huán)境
conda env list

使用pip安裝對應的模塊：
使用pip安裝相關模塊時今阳，所有的模塊都被安裝到python3.x目錄下面饥臂，網上查了很多資料，還是沒有解決該問題似踱，只好用一個很傻的方法隅熙，將python3.x卸載，只使用python2.7核芽，這樣使用pip安裝模塊時囚戚，所有模塊會被安裝到python2.7環(huán)境中。
jupyter notebook環(huán)境切換：
創(chuàng)建python2.7環(huán)境
conda create -n ipykernel_py2 python=2 ipykernel # 創(chuàng)建Python2環(huán)境
source activate ipykernel_py2 # 進入該環(huán)境
python -m ipykernel install --user # 使python2 kernel 在jupyter中新建notebook時顯示
閱讀beautifulsoup4文檔：

BeautifulSoup模塊：第一個參數應該是要被解析的文檔字符串或是文件句柄,第二個參數用來標識怎樣解析文檔.要解析的文檔類型: 目前支持, “html”, “xml”, 和 “html5”
從文檔中找到所有<a>標簽的鏈接:

for link in soup.find_all('a'):
    print link.get('href')

find_all()與find()用法：
- find_all( name , attrs , recursive , text , **kwargs )
  - name 參數轧简，可以查找所有名字為 name 的tag,字符串對象會被自動忽略掉.
  - keyword 參數驰坊，如果一個指定名字的參數不是搜索內置的參數名,搜索時會把該參數當作指定名字tag的屬性來搜索,如果包含一個名字為 id 的參數,Beautiful Soup會搜索每個tag的”id”屬性.
  - text 參數，通過 text 參數可以搜搜文檔中的字符串內容.與 name 參數的可選值一樣, text 參數接受字符串 , 正則表達式 , 列表, True
  - recursive 參數哮独，調用tag的 find_all() 方法時,Beautiful Soup會檢索當前tag的所有子孫節(jié)點,如果只想搜索tag的直接子節(jié)點,可以使用參數 recursive=False
- find( name , attrs , recursive , text , **kwargs )
- 區(qū)別：find_all() 方法的返回結果是值包含一個元素的列表,而find()方法直接返回結果拳芙；find_all() 方法沒有找到目標是返回空列表, find() 方法找不到目標時,返回 None。

作業(yè)

導入庫

import os          ## os模塊包含普遍的操作系統功能
import time        ## time時間模塊
import urllib2     ## 可用于頁面下載皮璧，身份驗證舟扎，提交表格等，支持非http協議
import urlparse    ##                
from bs4 import BeautifulSoup ## 解析網頁悴务，提供定位內容的便捷接口

下載指定頁面的html函數download

def download(url, retry=2):
    """
    下載頁面的函數睹限，會下載完整的頁面信息
    :param url: 要下載的url
    :param retry: 重試次數
    :reutrn: 原生html
    """
    print "downloading:",url
    # 設置header信息，模擬瀏覽器請求
    header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36'
    }
    try: #爬去可能會失敗，采用try-expect方式來捕獲處理
        request = urllib2.Request(url, headers = header)
        html = urllib2.urlopen(request).read() #抓取url
   # except urllib.error.URLError as e: #異常處理
    except urllib2.URLError as e:
        print "download error:", e.reason
        html = None
        if retry > 0: #未超過重試次數羡疗，可以繼續(xù)爬取
            if hasattr(e, 'code') and 500 <= e.code <600: #錯誤碼范圍染服，是請求出錯才繼續(xù)重試爬取
                print e.code
                return download(url, retry - 1)
    time.sleep(1)  #等待1s，避免對服務器造成壓力叨恨，也避免被服務器屏蔽爬取              
    return html

下載指定頁面的內容柳刮，并將其存入.txt

def crawled_page(crawled_url):
    """
    爬取文章內容
    param crawled_url: 需要爬取的頁面地址集合
    """
    html = download(crawled_url)
    soup = BeautifulSoup(html, "html.parser")
    title = soup.find('h1', {'class': 'title'}).text #獲取文章標題
    content = soup.find('div', {'class': 'show-content'}).text #獲取文章內容

    if os.path.exists('spider_res/') == False: #檢查保存文件的地址
        os.mkdir('spider_res')

    file_name = 'spider_res/' + title + '.txt' #設置要保存的文件名
    file = open(file_name, 'wb') #寫文件
    content = unicode(content).encode('utf-8', errors='ignore')
    file.write(content)
    file.close()

調用函數

url = "http://www.reibang.com/p/4a8749704ebf"
download(url)
crawled_page(url)

結果

image.png

參考:

最后編輯于：2017.12.09 15:38:32

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市特碳，隨后出現的幾起案子诚亚，更是在濱河造成了極大的恐慌，老刑警劉巖午乓，帶你破解...
沈念sama閱讀 222,000評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件站宗，死亡現場離奇詭異，居然都是意外死亡益愈，警方通過查閱死者的電腦和手機梢灭，發(fā)現死者居然都...
沈念sama閱讀 94,745評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蒸其，“玉大人敏释，你說我怎么就攤上這事∶” “怎么了钥顽？”我有些...
開封第一講書人閱讀 168,561評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長靠汁。經常有香客問我蜂大，道長，這世上最難降的妖魔是什么蝶怔？我笑而不...
開封第一講書人閱讀 59,782評論 1贊 298
?港島之戀（遺憾婚禮）
正文為了忘掉前任奶浦，我火速辦了婚禮，結果婚禮上踢星，老公的妹妹穿的比我還像新娘澳叉。我一直安慰自己，他們只是感情好沐悦，可當我...
茶點故事閱讀 68,798評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布成洗。她就那樣靜靜地躺著，像睡著了一般藏否。火紅的嫁衣襯著肌膚如雪泌枪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,394評論 1贊 310
城市分裂傳說
那天秕岛，我揣著相機與錄音碌燕，去河邊找鬼误证。笑死，一個胖子當著我的面吹牛修壕，可吹牛的內容都是我干的愈捅。我是一名探鬼主播，決...
沈念sama閱讀 40,952評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼慈鸠，長吁一口氣：“原來是場噩夢啊……” “哼蓝谨！你這毒婦竟也來了？” 一聲冷哼從身側響起青团，我...
開封第一講書人閱讀 39,852評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤譬巫，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后督笆，有當地人在樹林里發(fā)現了一具尸體芦昔，經...
沈念sama閱讀 46,409評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 38,483評論 3贊 341
?白月光啟示錄
正文我和宋清朗相戀三年娃肿，在試婚紗的時候發(fā)現自己被綠了咕缎。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,615評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡料扰，死狀恐怖凭豪，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情晒杈，我是刑警寧澤嫂伞，帶...
沈念sama閱讀 36,303評論 5贊 350
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站拯钻，受9級特大地震影響帖努，放射性物質發(fā)生泄漏。R本人自食惡果不足惜说庭，卻給世界環(huán)境...
茶點故事閱讀 41,979評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一然磷、第九天我趴在偏房一處隱蔽的房頂上張望郑趁。院中可真熱鬧刊驴，春花似錦、人聲如沸寡润。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,470評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽梭纹。三九已至躲惰，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間变抽，已是汗流浹背础拨。一陣腳步聲響...
開封第一講書人閱讀 33,571評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工氮块，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人诡宗。一個月前我還...
沈念sama閱讀 49,041評論 3贊 377
代替公主和親
正文我出身青樓滔蝉，卻偏偏與公主長得像，于是被迫代替她去往敵國和親塔沃。傳聞我的和親對象是個殘疾皇子蝠引，可洞房花燭夜當晚...
茶點故事閱讀 45,630評論 2贊 359

爬蟲作業(yè)3

課程作業(yè)

作業(yè)

推薦閱讀更多精彩內容