Python之初體驗

??最近python是越來越火了谈秫,自己也是想體驗一把,所以就抽時間把python基礎語法什么的都了解了下鱼鼓,也把具體的代碼試了試拟烫。看完了想著總要應用下吧迄本,否則總感覺沒勁兒硕淑,就跟沒學似得,畢竟實踐是最好的老師嘛岸梨。那么實現(xiàn)個什么功能呢喜颁?然后就看到了博客,要不就把所有博客的標題以及閱讀次數統(tǒng)計下吧曹阔,也算是網絡爬蟲吧半开。
??當然代碼是可以復用的,之前的爬取代碼我們直接拿過來用就好了赃份,本質上是只需要將我們爬取的數據展示在折線圖上面就好了寂拆,python中畫圖常用的就是matplotlib了奢米,當然這個屬于第三方模塊,需要安裝纠永,如果不安裝直接導包是會失敗的鬓长,當然安裝就很簡單了,這里就不多介紹了尝江。下面是我們代碼的完整實例涉波。

#!usr/bin/python
# -*- coding: utf-8 -*-

'''
使用python爬取csdn個人博客的訪問量,并用折線圖展示出來時間和閱讀數目的關系
'''

import urllib2
import re
from bs4 import BeautifulSoup;

#當前的博客列表頁號
from http import ResponseUtils
# 導入畫圖需要的庫
from pylab import *

page_num = 1
notLast = 1;
# account = str(raw_input('輸入csdn的登錄賬號:'))
account = 'submit66'
allTitleList = [];
allViewList = [];

while notLast:

    #首頁地址
    baseUrl = 'http://blog.csdn.net/'+account
    #連接頁號炭序,組成爬取的頁面網址
    myUrl = baseUrl+'/article/list/'+str(page_num)

    #偽裝成瀏覽器訪問啤覆,直接訪問的話csdn會拒絕
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers = {'User-Agent': user_agent}
    #構造請求
    req = urllib2.Request(myUrl, headers=headers);

    #訪問頁面
    myResponse = urllib2.urlopen(req)
    myPage = ResponseUtils.OutResponse().getResponse(myResponse);

    #在頁面中查找是否存在‘尾頁’這一個標簽來判斷是否為最后一頁,如果沒有則代表是最后一頁了
    pattern = re.compile('尾頁</a>');
    notLast = pattern.findall(myPage, re.S);

    soup = BeautifulSoup(myPage, 'lxml');
    # 使用beautifulsoup來解析html
    titleList = soup.find_all('span', class_='link_postdate');
    # 使用beautifulsoup來解析html
    viewList = soup.find_all('span', class_='link_view');
    allTitleList.extend(titleList);
    allViewList.extend(viewList);

    #頁號加1
    page_num = page_num + 1;

# ----------------循環(huán)結束渠道數據,下面是為了繪圖準備數據惭聂,并且對數據做加工-----------------
# 將數據結果順序反轉窗声,因為之前是倒序排列,我們需要的時間是從前到后的
allTitleList.reverse();
allViewList.reverse();

# 聲明兩個數組辜纲,存儲的即為x笨觅、y軸的值
xValues = [];
yValues = [];
# 通過循環(huán)給存儲x和y軸坐標值的list賦值
for n in range(len(allViewList)):
    xvalue = allViewList[n].contents[1].encode('utf-8'); # 取出閱讀數量數據
    yvalue = allTitleList[n].get_text().encode('utf-8'); # 取出閱讀日期數據
    yValues.append(xvalue[1:len(xvalue)-1]) # 因為去除的閱讀數是帶()的,所以我們需要截取耕腾,對于字符串的截取就相當于截取數組
    xValues.append(yvalue) # 將閱讀數量放在list中
    # 打印輸出我們的數據
    print '閱讀數量:%s   日期:%s' % (yValues[n], xValues[n]);

# --------------下面是開始繪圖部分--------------

# 這行代碼是設置中文字體可以展示见剩,否則將會報錯
mpl.rcParams['font.sans-serif'] = ['SimHei']
x = range(len(xValues))
plt.plot(x, yValues, marker='o', mec='r', mfc='w', label=u'x時間和y閱讀數關系折線圖')
plt.legend()  # 讓圖例生效
# 可以看到x和y 設置的方式是不同的,因為x軸可能只是一個名稱幽邓,一個分類炮温,而不是一個具體的數值火脉,所以通過這種方式來做了牵舵,而對于y則是要具體展示的數值
plt.xticks(x, xValues, rotation=45) # 這里的rotation,當名稱展示時候倦挂,一個傾斜的角度畸颅,當文案很長時候特別好用
plt.margins(0) # 這個不設置的話,折線的開始和結束出會有間距
plt.subplots_adjust(bottom=0.27) # 設置折線圖和底部區(qū)域的距離
plt.xlabel(u"time(s)閱讀日期") #X軸標簽
plt.ylabel(u"閱讀數量(次)") #Y軸標簽
plt.title(u"閱讀數量趨勢圖") #標題
# 展示圖表對話框
plt.show()

??其實方援,上面的代碼寫的還是蠻清楚的没炒,相比之前的代碼岂座,就是需要導入pylab模塊赏陵,里面自然是包含了matplotlib的了,之前代碼還是爬取的歹茶,一變的是之前我們抓取的是閱讀數量和博客title先匪,現(xiàn)在是閱讀數量和每篇博客創(chuàng)建時間种吸,二是將閱讀數量和閱讀日期分別放在了list中方便下面使用。然后第二部分就是將數據做整合呀非,即為繪圖準備x和y軸的值坚俗,兩者均放在一個list里面镜盯,兩個list的數量是一致的,否則是會報錯的猖败。第三部分則是繪圖部分速缆,首先是設置了繪圖可以正確展示中文,其次是將x和y軸的數據給了繪圖實例恩闻,然后讓繪圖實例生效艺糜,因為我們的x軸只是一個名稱展示,這里即為日期展示幢尚,所以不能像y軸那樣子直接把值塞進去倦踢,所以下面調用了xticks方法進行了特殊處理,下面又設置了x和y軸標簽侠草,即x和y軸分別代表什么了辱挥。最后就是我們的圖表的show(秀)啦。讓我們看看最終效果圖吧:
image

?? 嗯边涕,看起來貌似還不錯晤碘,不過最近的閱讀數量有點低呀,尷尬啦功蜓。有人會問上面的xticks方法的rotation是干嘛的园爷,就是讓我們的x軸數值逆時針旋轉45度呀,你看我們的x軸的每個數值都那么長式撼,如果不旋轉肯定覆蓋了呀童社,還有subplots_adjust這個方法是設置繪圖區(qū)域和上下左右之間的距離的,特別是底部的著隆,如果不設置的話扰楼,那么長的文案是會被下面的菜單欄覆蓋的哦,然后我們再說說plot這個方法的幾個參數的意思美浦,前兩個就是x和y軸的數據了弦赖,第三個就是設置上圖的紅圈即為標記點了,第四個參數是設置標記點的顏色浦辨,上面r代表紅色蹬竖,你換成g就是綠色了,如果不設置的話流酬,默認是藍色币厕。第五個參數就是設置標記點是否是實心,如果mfc不設置的話就是實心的芽腾,最后一個參數就是折線圖的實例和說明了旦装。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市晦嵌,隨后出現(xiàn)的幾起案子同辣,更是在濱河造成了極大的恐慌拷姿,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件旱函,死亡現(xiàn)場離奇詭異响巢,居然都是意外死亡,警方通過查閱死者的電腦和手機棒妨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進店門踪古,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人券腔,你說我怎么就攤上這事伏穆。” “怎么了纷纫?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵枕扫,是天一觀的道長。 經常有香客問我辱魁,道長烟瞧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任染簇,我火速辦了婚禮参滴,結果婚禮上,老公的妹妹穿的比我還像新娘锻弓。我一直安慰自己砾赔,他們只是感情好,可當我...
    茶點故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布青灼。 她就那樣靜靜地躺著暴心,像睡著了一般。 火紅的嫁衣襯著肌膚如雪聚至。 梳的紋絲不亂的頭發(fā)上酷勺,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天本橙,我揣著相機與錄音扳躬,去河邊找鬼。 笑死甚亭,一個胖子當著我的面吹牛贷币,可吹牛的內容都是我干的。 我是一名探鬼主播亏狰,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼役纹,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了暇唾?” 一聲冷哼從身側響起促脉,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤辰斋,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瘸味,有當地人在樹林里發(fā)現(xiàn)了一具尸體宫仗,經...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年旁仿,在試婚紗的時候發(fā)現(xiàn)自己被綠了藕夫。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,643評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡枯冈,死狀恐怖毅贮,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情尘奏,我是刑警寧澤滩褥,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站炫加,受9級特大地震影響铸题,放射性物質發(fā)生泄漏。R本人自食惡果不足惜琢感,卻給世界環(huán)境...
    茶點故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一丢间、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧驹针,春花似錦烘挫、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至苛蒲,卻和暖如春卤橄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背臂外。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工窟扑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人漏健。 一個月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓嚎货,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蔫浆。 傳聞我的和親對象是個殘疾皇子殖属,可洞房花燭夜當晚...
    茶點故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內容

  • # Python 資源大全中文版 我想很多程序員應該記得 GitHub 上有一個 Awesome - XXX 系列...
    aimaile閱讀 26,451評論 6 428
  • ¥開啟¥ 【iAPP實現(xiàn)進入界面執(zhí)行逐一顯】 〖2017-08-25 15:22:14〗 《//首先開一個線程,因...
    小菜c閱讀 6,365評論 0 17
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理瓦盛,服務發(fā)現(xiàn)洗显,斷路器外潜,智...
    卡卡羅2017閱讀 134,633評論 18 139
  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊 首頁 最新文章 IT 職場 前端 后端 移動端 數據庫 運維 其他...
    Helen_Cat閱讀 3,849評論 1 10
  • GitHub 上有一個 Awesome - XXX 系列的資源整理,資源非常豐富,涉及面非常廣挠唆。awesome-p...
    若與閱讀 18,629評論 4 418