python網(wǎng)絡(luò)爬蟲筆記一

一、requests庫的使用入門

requests.request() 構(gòu)造一個請求忆谓,支撐以下各方法

requests.get() 獲取HTML網(wǎng)頁的主要方法舰始,對應(yīng)于HTTP的GRT

requests.head() 獲取HTML網(wǎng)頁頭信息

requests.post() 對應(yīng)于HTTP的POST

requests.put() 對應(yīng)于HTTP的PUT

requests.patch() 向HTML提交局部修改請求

requests.delete() 向HTML提交刪除請求

二闸衫、ROBOTS協(xié)議

爬蟲可能被網(wǎng)站拒絕 需要修改Header

爬蟲時注意\robots.txt

三屹蚊、BeautifulSoup

屬性: Tag、Name坝辫、Attributes篷就、NavigableString、Comment

遍歷:

平行遍歷: .contents .children .descendants
上行遍歷: .parent .parents
下行遍歷: .next_sibling .next_siblings .previous_sibling .previous_siblings

個別函數(shù):

HTML文本格式化: .prettify()
查找函數(shù): .find_all()

四近忙、實例-----大學(xué)排名

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print("failed")
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[2].string])

def printUnivList(ulist, num):
    print("{:^10}\t{:^6}\t{:^10}".format("排名", "學(xué)校名稱", "得分"))
    for i in range(num):
        u = ulist[i]
        print("{:^10}\t{:^6}\t{:^10}".format(u[0], u[1], u[2]))

def main():
    uinfo = []
    url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html"
    html = getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20)  #20

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末竭业,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子及舍,更是在濱河造成了極大的恐慌未辆,老刑警劉巖,帶你破解...
    沈念sama閱讀 223,207評論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锯玛,死亡現(xiàn)場離奇詭異咐柜,居然都是意外死亡兼蜈,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評論 3 400
  • 文/潘曉璐 我一進(jìn)店門拙友,熙熙樓的掌柜王于貴愁眉苦臉地迎上來为狸,“玉大人,你說我怎么就攤上這事钥平。” “怎么了姊途?”我有些...
    開封第一講書人閱讀 170,031評論 0 366
  • 文/不壞的土叔 我叫張陵捷兰,是天一觀的道長。 經(jīng)常有香客問我贡茅,道長,這世上最難降的妖魔是什么顶考? 我笑而不...
    開封第一講書人閱讀 60,334評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮妖泄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蹈胡。我一直安慰自己,他們只是感情好罚渐,可當(dāng)我...
    茶點故事閱讀 69,322評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著荷并,像睡著了一般。 火紅的嫁衣襯著肌膚如雪源织。 梳的紋絲不亂的頭發(fā)上翩伪,一...
    開封第一講書人閱讀 52,895評論 1 314
  • 那天幻工,我揣著相機(jī)與錄音,去河邊找鬼黎茎。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的盲憎。 我是一名探鬼主播,決...
    沈念sama閱讀 41,300評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼饼疙,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了窑眯?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,264評論 0 277
  • 序言:老撾萬榮一對情侶失蹤医窿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后姥卢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,784評論 1 321
  • 正文 獨居荒郊野嶺守林人離奇死亡独榴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,870評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了瓶堕。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,989評論 1 354
  • 序言:一個原本活蹦亂跳的男人離奇死亡捞烟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出当船,到底是詐尸還是另有隱情,我是刑警寧澤德频,帶...
    沈念sama閱讀 36,649評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站竞思,受9級特大地震影響钞护,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜课梳,卻給世界環(huán)境...
    茶點故事閱讀 42,331評論 3 336
  • 文/蒙蒙 一距辆、第九天 我趴在偏房一處隱蔽的房頂上張望跨算。 院中可真熱鬧椭懊,春花似錦、人聲如沸氧猬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泉哈。三九已至丛晦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間烫沙,已是汗流浹背隙笆。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評論 1 275
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留撑柔,地道東北人。 一個月前我還...
    沈念sama閱讀 49,452評論 3 379
  • 正文 我出身青樓剪决,卻偏偏與公主長得像柑潦,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子峻凫,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,995評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 聲明:本文講解的實戰(zhàn)內(nèi)容譬胎,均僅用于學(xué)習(xí)交流,請勿用于任何商業(yè)用途银择! 一多糠、前言 強(qiáng)烈建議:請在電腦的陪同下浩考,閱讀本文...
    Bruce_Szh閱讀 12,727評論 6 28
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理析孽,服務(wù)發(fā)現(xiàn),斷路器袜瞬,智...
    卡卡羅2017閱讀 134,722評論 18 139
  • 你是一朵花,吸引來的是蜜蜂拍鲤。 你是一坨翔汞扎,吸引來的是蒼蠅。
    勒尤閱讀 184評論 3 0
  • 求存景鼠,顧名思義,就是求得我們活在這個世界的存在價值铛漓。 要求得在這個世界的存在價值鲫构,再具體一點就是被需要的價值交換,...
    逄格亮閱讀 383評論 0 0
  • 坐在火車上问顷,憑窗而望禀梳,那一排排的樹就擦眼而過了杜窄。 這種場景是每次乘車時都能看到的塞耕,早就習(xí)以為常了嘴瓤。 忽然有一天莉钙,憑...
    梳頭美容閱讀 328評論 0 0