urllib庫(kù)
- python2中捶障,由urllib和urllib2兩個(gè)庫(kù)來(lái)發(fā)送請(qǐng)求泣懊,python3中沒(méi)有urllib2夫晌,統(tǒng)一為urllib
- urllib的幾個(gè)模塊
- request:最基本的http請(qǐng)求模塊麻献,
- error: 異常處理的模塊
- parse:工具模塊辨嗽,提供了許多url處理方法赌渣,比如拆分魏铅、解析、合并等
- robotparser:識(shí)別網(wǎng)絡(luò)的robot.txt文件
- request模塊下的幾個(gè)方法類
- urlopen(url,data,timeoit)
- url:必傳坚芜,請(qǐng)求資源的地址
- data:可選览芳,必須是字節(jié)流格式,使用此方法后不再是get請(qǐng)求,而是post請(qǐng)求
- timeout:設(shè)定超時(shí)時(shí)間
from urllib import request, parse, error # urlopen(url, data) resp = request.urlopen("http://shuyantech.com/api/cndbpedia/avpair?q=%E6%B8%85%E5%8D%8E%E5%A4%A7%E5%AD%A6") # 一個(gè)http響應(yīng)對(duì)象 res = resp.read() # 返回值為bytes編碼對(duì)象 res = res.decode("utf-8") # 對(duì)其解碼 print(res) # data: 像url中動(dòng)態(tài)傳參數(shù),使用此方法后不再是get請(qǐng)求货岭,而是post請(qǐng)求 params = {"q":"清華大學(xué)"} # 定義參數(shù) # urlencode(dict)將參數(shù)字典轉(zhuǎn)化為字符串 data = parse.urlencode(params) # q=%E6%B8%85%E5%8D%8E%E5%A4%A7%E5%AD%A6 # bytes(str,encode)將字符串轉(zhuǎn)化為字節(jié)流類型路操,并制定編碼格式 data = bytes(data, encoding="utf8") # b'q=%E6%B8%85%E5%8D%8E%E5%A4%A7%E5%AD%A6' resp = request.urlopen("http://shuyantech.com/api/cndbpedia/avpair?", data) res = resp.read() # b'{"status": "ok", "ret": [["\xe4\xb8\xad\xe6\x96\x87\xe5\x90\x8d", "\xe6\xb8\x85\xe5\x8d\x8e\xe5\xa4\xa7\xe5\xad\xa6"], res = res.decode("utf-8") # {"status": "ok", "ret": [["中文名", "清華大學(xué)"], print(res) # timeout疾渴,設(shè)置超時(shí)時(shí)間,單位為秒 try: resp = request.urlopen("http://shuyantech.com/api/cndbpedia/avpair?q=%E6%B8%85%E5%8D%8E%E5%A4%A7%E5%AD%A6", timeout=0.01) print(resp) # urllib.error.URLError: <urlopen error timed out> except error.URLError as e: print(e.reason) # timed out # isinstance,判斷對(duì)象是否為已知類型屯仗,與type的區(qū)別搞坝,isinstance() 會(huì)認(rèn)為子類是一種父類類型,考慮繼承關(guān)系魁袜,type則不考慮繼承關(guān)系 import socket if isinstance(e.reason, socket.timeout): print("超時(shí)了")
- Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False,method=None)
- url:必傳桩撮,請(qǐng)求的資源地址
- data:必須是bytes(字節(jié)流)類型的
- headers:字典形式,構(gòu)造請(qǐng)求頭信息峰弹,例如User-Agent
- method:字符串店量,指定請(qǐng)求方式
- origin_req_host:請(qǐng)求方的host和ip
- unverifiable:驗(yàn)證用戶有沒(méi)有權(quán)限接受請(qǐng)求結(jié)果
from urllib import request, parse url = "http://httpbin.org/post" data = { "name":"Request" } headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36", "Host": "httpbin.org" } method = "POST" # 構(gòu)造請(qǐng)求信息 req = request.Request(method=method, url=url, headers=headers, data=bytes(parse.urlencode(data), encoding="utf8") ) resp = request.urlopen(req) res = resp.read().decode("utf-8") print(res)
- Handler各種處理器和opener
- HTTPBasicAuthHandler:用于管理認(rèn)證,當(dāng)一個(gè)連接打開(kāi)時(shí)鞠呈,需要登錄融师,可以用它來(lái)解決認(rèn)證問(wèn)題
- HTTPCookieProcessor:用于處理cookie
- HTTPPasswordMgr:用于管理密碼,維護(hù)了用戶名和密碼的表
- HTTPRedirectHandler:用于重定向
- ProxyHandler:用于設(shè)置代理蚁吝,默認(rèn)代理為空
from urllib.request import ProxyHandler, build_opener from urllib.error import URLError url = "https://www.baidu.com" # 實(shí)例化代理 p_handler = ProxyHandler({ "http":"http://39.134.66.14:8080", "https":"https://218.38.52.132:80" }) opener = build_opener(p_handler) # build_opener(實(shí)例化的handler處理器) try: res = opener.open(url) html = res.read().decode("utf-8") print(html) except URLError as e: print(e.reason)
- urlopen(url,data,timeoit)
- error:異常處理旱爆,定義了由request模塊產(chǎn)生的錯(cuò)誤
- URLError:error模塊的基類,由request模塊產(chǎn)生的異常都可以通過(guò)這個(gè)類捕獲窘茁,存在reason屬性
- HTTPError: URLError的子類怀伦,專門(mén)處理HTTP請(qǐng)求錯(cuò)誤 屬性code:返回的HTTP狀態(tài)碼,reason:錯(cuò)誤原因 headers:返回請(qǐng)求頭
# 一個(gè)完整的異常捕獲例子 from urllib import error,request try: resp = request.urlopen("http://cuiqingcai.com/index.html") except error.HTTPError as e: print("返回的狀態(tài)碼%s" % e.code) print("返回的錯(cuò)誤原因%s" % e.reason) print("返回的請(qǐng)求頭%s" % e.headers) except error.URLError as e: print("異常原因%s" % e.reason) else: print("成功")
-parse:解析鏈接山林,實(shí)現(xiàn)url各部分的抽取房待、合并、以及鏈接的轉(zhuǎn)換
- urlparse:實(shí)現(xiàn)url的分段和識(shí)別驼抹,分成六段 scheme://netloc/path;params?query#fragment
- scheme:表示協(xié)議
- netloc:表示域名
- path:表示訪問(wèn)路徑
- params:代表參數(shù)桑孩,;后
- query:代表查新條件,?后
- fragment:表示錨點(diǎn)砂蔽,#后
- urlparse(url, scheme,allow_fragments)
- url:必填洼怔,待解析的url
- scheme:默認(rèn)的協(xié)議,假如傳入的連接沒(méi)帶協(xié)議左驾,會(huì)采取這個(gè)默認(rèn)的協(xié)議
- allow_fragments:是否忽略錨點(diǎn)部分镣隶,值為布爾類型
- urlunparse:根據(jù)參數(shù),生成鏈接诡右,參數(shù)為可迭代對(duì)象安岂,且長(zhǎng)度為6
- urlsplit: 與urlparse一樣,參數(shù)也形同解析url,分成五段帆吻,將params與path部分合并
- urlsplit(url, scheme,allow_fragments)
- urlunsplit: 參數(shù)為可迭代對(duì)象域那,且長(zhǎng)度為5
- urljoin:生成鏈接,效果同urlunparse和urlunsplit,但此方法不需要長(zhǎng)度
- urljoin(base_url,str) 將兩個(gè)參數(shù)合并對(duì)base_url的協(xié)議次员、域名败许、路徑進(jìn)行補(bǔ)充,base_url其他三個(gè)部分則不起作用
- urlencode:將字典對(duì)象序列化成符合url參數(shù)格式的字符串,一般往url傳參中用
- parse_qs:將url中的參數(shù)轉(zhuǎn)成字典
- parse_qsl:將url中的參數(shù)轉(zhuǎn)化為元組組成的列表
- quote:將數(shù)據(jù)轉(zhuǎn)化為url格式的編碼淑蔚,一般參數(shù)為中文的時(shí)候使用
- unquote:將url格式的編碼進(jìn)行解碼
```
from urllib import parse
res = parse.urlparse("http:www.baidu.com/index.html;user?id=5#comment")
# 返回結(jié)果為元組市殷,res[0],res.scheme
print(res, res[0], res.scheme) # ParseResult(scheme='http', netloc='', path='www.baidu.com/index.html', params='user', query='id=5', fragment='comment')
data = ["http", "www.baidu.com", "index.html", "user", "d=5", "comment"]
res = parse.urlunparse(data)
print(res) # http://www.baidu.com/index.html;user?d=5#comment
res = parse.urlsplit("http:www.baidu.com/index.html;user?id=5#comment")
print(res) # SplitResult(scheme='http', netloc='', path='www.baidu.com/index.html;user', query='id=5', fragment='comment')
data = ["http", "www.baidu.com", "index.html", "d=5", "comment"]
res = parse.urlunsplit(data)
print(res) # http://www.baidu.com/index.html?d=5#comment
res = parse.urljoin("http://www.baidu.com", "index.html")
print(res) # http://www.baidu.com/index.html ,注意合并的規(guī)則
data= {
"name":"bob",
"age":18
}
res = parse.urlencode(data, encoding="utf8")
print(res) # name=bob&age=18
res = parse.parse_qs("http:www.baidu.com/index.html;user?id=5&name=3")
print(res) # {'user?id': ['5'], 'name': ['3#comment']}
res = parse.parse_qsl("http:www.baidu.com/index.html;user?id=5&name=3")
print(res) # [('user?id', '5'), ('name', '3')]
q= "張三"
res = "http:www.baidu.com/index.html?q=%s " % parse.quote(q) # 編碼
print(res) # http:www.baidu.com/index.html?q=%E5%BC%A0%E4%B8%89
res = parse.unquote(res) # 解碼
print(res) # http:www.baidu.com/index.html?q=張三
```
- robotparse:分析網(wǎng)站的robot協(xié)議
- robots.txt:網(wǎng)站爬蟲(chóng)協(xié)議,全稱網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)刹衫,一般存放于網(wǎng)站的根目錄下
- 返回的內(nèi)容:
- user-agent:設(shè)置可以爬取網(wǎng)站的爬蟲(chóng)名稱
- disallow:設(shè)置哪些路徑不能爬取
- allow:設(shè)置哪些路徑可以爬取
# 京東的爬蟲(chóng)協(xié)議 # url: https://www.jd.com/robots.txt User-agent: * # 任何爬蟲(chóng)都可以爬 Disallow: /?* Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / User-agent: GwdangSpider Disallow: / User-agent: WochachaSpider Disallow: /
- RobotFileParser(url="") # 根據(jù)網(wǎng)站的robot協(xié)議來(lái)判斷爬蟲(chóng)是否有權(quán)限爬取
- set_url():設(shè)置robots.txt文件的連接
- read():讀取robots.txt文件并分析,無(wú)返回值醋寝,必須調(diào)用
- parse():解析robots.txt文件
- can_fetch(User-agent, url):返回值為布爾類型,判斷此user-agent是否可以爬取此url
- mtime():返回值為上次抓取分析robots的時(shí)間
- modified():將當(dāng)前時(shí)間設(shè)置為上次抓取的時(shí)間
from urllib import robotparser rp = robotparser.RobotFileParser() # 實(shí)例化分析類 rp.set_url("https://www.jd.com/robots.txt") # 添加robots地址 rp.read() # 讀取robot協(xié)議 print(rp.can_fetch("*", "https://www.jd.com/")) # 判斷當(dāng)前爬蟲(chóng)是否可以爬取带迟, True print(rp.mtime()) # 上次抓取的時(shí)間 1553685029.0578604 print(rp.modified()) # 設(shè)置抓取的時(shí)間 none
requests的使用
- 基本用法
- Get請(qǐng)求 requests.get("url", "params", "headers")
- url:請(qǐng)求資源的地址
- params:傳入的參數(shù)
- headers:請(qǐng)求頭音羞,反扒的一種措施
- Post請(qǐng)求 requests.post("url", "params", "headers")
- url:請(qǐng)求資源的地址
- params:傳入的參數(shù)
- headers:請(qǐng)求頭,反扒的一種措施
- 響應(yīng)屬性信息
- text:返回的文本數(shù)據(jù)
- content:二進(jìn)制格式的數(shù)據(jù)仓犬,例如音頻嗅绰、視頻、圖片的
- status_code:返回的狀態(tài)碼
- headers:返回的響應(yīng)頭
- cookies:cookies信息
- url:請(qǐng)求的url信息
- history: 請(qǐng)求歷史
import requests # get請(qǐng)求 requests.get(url, params, headers) url = "http://httpbin.org/get" # 請(qǐng)求的url # 請(qǐng)求參數(shù) params = { "name":"Arale", "age":25 } # 請(qǐng)求頭 headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36" } # 發(fā)送get請(qǐng)求婶肩,得到響應(yīng) resp = requests.get(url, params=params, headers=headers) print(resp.url) # 打印請(qǐng)求的url 參數(shù)在url http://httpbin.org/get?name=Arale&age=25 # post請(qǐng)求 requests.post(url, data, headers) url = "http://httpbin.org/post" # 請(qǐng)求的url # 發(fā)送post請(qǐng)求 resp = requests.post(url, data=params, headers=headers) print(resp.url) # 打印請(qǐng)求的url 參數(shù)在請(qǐng)求體中 http://httpbin.org/post # 響應(yīng)屬性方法 print(resp.text) # 打印str文本數(shù)據(jù) print(resp.content) # 處理二進(jìn)制數(shù)據(jù)办陷,例如圖片 print(resp.url) # http://httpbin.org/post print(resp.headers) # {'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Origin': '*', 'Content-Encoding': 'gzip', 'Content-Type': 'application/json', 'Date': 'Thu, 28 Mar 2019 01:53:32 GMT', 'Server': 'nginx', 'Content-Length': '343', 'Connection': 'keep-alive'} print(resp.cookies) # <RequestsCookieJar[]> print(resp.status_code) # 200 print(resp.history) # []
- Get請(qǐng)求 requests.get("url", "params", "headers")
- 高級(jí)用法
- 上傳文件
# 上傳文件 files = { "file": open("01_urllib的使用.py", "rb") } resp = requests.post(url, files=files) # 注意key必須為files否則報(bào)錯(cuò) print(resp.text) # 返回內(nèi)容會(huì)多一個(gè)files字段
- cookies的使用
- 以簡(jiǎn)書(shū)為例,寫(xiě)文章的頁(yè)面需要登陸后才能看見(jiàn)律歼,拿到網(wǎng)站登錄后的cookie,再去請(qǐng)求,以達(dá)到維持登錄狀態(tài)的效果啡专。
# cookie的使用 headers = { # 此cookie為登錄網(wǎng)站后的cookie, "Cookie": "Hm_lvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1553742403; sajssdk_2015_cross_new_user=1; locale=zh-CN; read_mode=day; default_font=font2; remember_user_token=W1sxMjE1NTM2Ml0sIiQyYSQxMSRmZEdzaHlpLnFsYnZpMG9PbFRQLk91IiwiMTU1Mzc0MjQxMC44MTg2OTc3Il0%3D--48708ad37562cd9a12cfaac066b92cc24e4305d3; _m7e_session_core=167a540dc0e51fd3bb10e0e502e174de; __yadk_uid=8uaAcl2jljk5KfYwGemwVKFoMN89sBuC; Hm_lpvt_0c0e9d9b1e7d617b3e6842e85b9fb068=1553742450; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22169c243959d13-00d4259c8ce7dd-7a1b34-1296000-169c243959e606%22%2C%22%24device_id%22%3A%22169c243959d13-00d4259c8ce7dd-7a1b34-1296000-169c243959e606%22%2C%22props%22%3A%7B%7D%2C%22first_id%22%3A%22%22%7D", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36", "Referer": "http://www.reibang.com/writer" } url = "http://www.reibang.com/writer#/notebooks/35136025/notes/43035331" resp = requests.get(url, headers=headers) print(resp.status_code) # 設(shè)置cookie,可以訪問(wèn)需要登錄才能看見(jiàn)的頁(yè)面200 # 查看cookie,并可以得到cookie的key value cookie = requests.get("https://www.baidu.com/").cookies print(cookie) for k, v in cookie.items(): print(k + "=" + v)
- session會(huì)話維持
- Session():用來(lái)維持同一個(gè)會(huì)話险毁,使用其實(shí)例化的對(duì)象進(jìn)行請(qǐng)求
# session:維持會(huì)話 session = requests.Session() # 實(shí)例化session類,使請(qǐng)求為同一示例们童,即維持同一會(huì)話 session.get("https://www.httpbin.org/cookies/set/arale/123456") resp = session.get("https://www.httpbin.org/cookies") print(resp.text)
- ssl證書(shū)認(rèn)證
- requests中有個(gè)參數(shù)verify,默認(rèn)weiTrue,會(huì)自動(dòng)驗(yàn)證網(wǎng)站的證書(shū)
# ssl證書(shū)的驗(yàn)證畔况,verify參數(shù)默認(rèn)為T(mén)rue try: resp = requests.get("https://inv-veri.chinatax.gov.cn/") print(resp.status_code) # requests.exceptions.SSLError會(huì)報(bào)錯(cuò),默認(rèn)會(huì)驗(yàn)證CA證書(shū) except Exception as e: # from requests.packages import urllib3 # urllib3.disable_warnings() # 忽略警告 import logging logging.captureWarnings(True) # 捕獲警告到日志的方式忽略警告 resp = requests.get("https://inv-veri.chinatax.gov.cn/", verify=False) # 不去驗(yàn)證證書(shū) print(resp.status_code)
- 代理的設(shè)置
# 代理ip的設(shè)置 proxies = { "http":"http://47.107.227.104:8888", } resp = requests.get("https://www.baidu.com/", proxies=proxies) print(resp.status_code)
- 超時(shí)設(shè)置
# 設(shè)置超時(shí) try: resp = requests.get("https://www.baidu.com/", timeout=0.001) print(resp.status_code) # requests.exceptions.ConnectTimeout except Exception as e: print(e)
- 身份認(rèn)證
# 傳入auth=(元組) resp = requests.get("url", auth=("user", "pwd")
- prepared requests對(duì)象
- 引入Request對(duì)象
s = requests.Session() # 實(shí)例化session對(duì)象 req = requests.Request("get", "https://www.baidu.com/") # 構(gòu)造請(qǐng)求對(duì)象 pre = s.prepare_request(req) # 通過(guò)session準(zhǔn)備請(qǐng)求數(shù)據(jù) resp = s.send(pre) # 發(fā)送請(qǐng)求數(shù)據(jù)慧库,返回響應(yīng) print(resp.status_code)
正則表達(dá)式
- 常用方法
- match(re, str):從開(kāi)頭開(kāi)始匹配跷跪,如果開(kāi)頭不符合,則匹配失敗
- search(re,str):掃描整個(gè)字符串齐板,返回第一個(gè)符合條件的結(jié)果吵瞻,沒(méi)有匹配到,則返回none
- findall(re,str):查找整個(gè)字符串甘磨,返回所有匹配到的結(jié)果
- sub(re,要替換的內(nèi)容,str):替換匹配到的數(shù)據(jù)
- compile(re):將匹配規(guī)則編譯成正則表達(dá)式對(duì)象橡羞,以達(dá)到復(fù)用的效果
- 返回結(jié)果為sre_match對(duì)象,有兩個(gè)方法group()\span()
- group():得到結(jié)果的內(nèi)容
- span():得到匹配到的范圍济舆,即結(jié)果字符串在原字符竄中的位置范圍卿泽。
- 分組:即字符串截取,用()包裹好想要提取的子字符串滋觉,調(diào)用group()方法签夭,并傳入分組索引即可得到齐邦,索引從1開(kāi)始
- 通用匹配:., . 表示除換行符之外的任意字符,表示匹配前面字符0或多個(gè)
- 貪婪與非貪婪:.* 表示貪婪模式第租,會(huì)盡可能的匹配多個(gè)導(dǎo)致匹配結(jié)果不準(zhǔn)確侄旬,.?表示非貪婪模式,盡可能匹配更少的煌妈,注意:非貪婪模式放在字符串結(jié)尾儡羔,可能會(huì)匹配不到*
- 修飾符:第三個(gè)參數(shù),做修飾用
- re.S:表示匹配包括換行符在內(nèi)的所有字符
- re.I:表示對(duì)大小寫(xiě)不敏感
- 轉(zhuǎn)移符: \璧诵,用來(lái)轉(zhuǎn)義特殊字符
import re
str = "Extra stings Hello 123456 world_This is a Regex Demo Exrea stings"
# + 表示一個(gè)或多了
# .*汰蜘?表示非貪婪模式
# \w{10}匹配字母數(shù)字下劃線10個(gè),{4,10}貪婪模式之宿,會(huì)取10個(gè)
# ()分組字符串提取
result = re.match(r"^extra.*?(\d+)\s(\w{10})", str, re.I)
print(result.group()) # 匹配結(jié)果的內(nèi)容
print(result.span()) # 結(jié)果字符串在原字符串中的位置范圍
print(result.group(1)) # 取出第一個(gè)分組結(jié)果
print(result.group(2))
爬取貓眼電影
- 使用requests第三方庫(kù)族操,請(qǐng)求網(wǎng)站,用正則解析頁(yè)面,將解析結(jié)果寫(xiě)入excel
import requests
import re
import time
import xlwt
# 爬取網(wǎng)頁(yè)
def get_page(url, headers):
resp = requests.get(url, headers)
return resp.text
# 解析返回的結(jié)果
def parse_res(res):
'''<dd>
<i class="board-index board-index-1">1</i>
<a href="/films/1203" title="霸王別姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
<img src="http://s0.meituan.net/bs/?f=myfe/mywww:/image/loading_2.e3d934bf.png" alt="" class="poster-default">
<img data-src="https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c" alt="亂世佳人" class="board-img" />
</a>
<div class="board-item-main">
<div class="board-item-content">
<div class="movie-item-info">
<p class="name"><a href="/films/1203" title="霸王別姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王別姬</a></p>
<p class="star">
主演:張國(guó)榮,張豐毅,鞏俐
</p>
<p class="releasetime">上映時(shí)間:1993-01-01</p>
</div>
<div class="movie-item-number score-num">
<p class="score">
<i class="integer">9.</i>
<i class="fraction">5</i>
</p>
</div>
</div>
</div>
</dd>
'''
par = re.compile(r'<dd>.*?'
r'<i.*?>(\d+)</i>'
r'.*?data-src="(.*?)"'
r'.*?class="name"><a .*?>(.*?)</a>'
r'.*?class="star">(.*?)</p>'
r'.*?releasetime">(.*?)</p>'
r'.*?class="integer">(.*?)</i>'
r'.*?class="fraction">(.*?)</i>'
r'.*?</dd>', re.S)
items = re.findall(par, res) # 返回list
for item in items:
# 利用生成器返回?cái)?shù)據(jù),或者構(gòu)造元組比被,存放在list中用return返回
# TODO 返回這樣格式是寫(xiě)入excel需要
yield [
item[0],
item[1],
item[2],
item[3].strip()[3:],
item[4][5:],
item[5]+item[6]
]
# 寫(xiě)入文件
def write_to_excel(items):
# 創(chuàng)建一個(gè)excel
excel = xlwt.Workbook()
# 添加一個(gè)工作區(qū)
sheet = excel.add_sheet("電影排名")
# 構(gòu)造表頭信息
head = ["序號(hào)", "海報(bào)", "名稱", "主演", "上映時(shí)間", "評(píng)分"]
# 將頭部信息寫(xiě)入excel表頭
for index, value in enumerate(head):
sheet.write(0, index, value)
# 將內(nèi)容寫(xiě)入excel
for row, item in enumerate(items, 1): # 行數(shù)據(jù)
for col in range(0, len(item)): # 列數(shù)據(jù)
sheet.write(row, col, item[col])
excel.save("./貓眼電影排名.xlsx")
# 主程序入口
def main(offset):
url = "https://maoyan.com/board/4?offset=" + str(offset)
headers = {
"User-Agent": '''Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36(KHTML, like Gecko) Chrome
/73.0.3683.75 Safari/537.36'''
}
res = get_page(url, headers) # 請(qǐng)求url
items = parse_res(res) # 解析結(jié)果色难,返回生成器
print(items.__next__()) # python3改為_(kāi)_next__(),之前版本為next()
return items # 返回解析后的結(jié)果,生成器
if __name__ == "__main__":
items = []
offset = None
for i in range(0, 10):
item= main(i*10) # 分頁(yè)爬取
items += list(item) # 將每頁(yè)結(jié)果進(jìn)行拼接
time.sleep(1) # 每頁(yè)休眠一秒鐘等缀,反扒措施
write_to_excel(items) # 將所有結(jié)果一次性寫(xiě)入文件枷莉,不一次一次寫(xiě),因?yàn)闀?huì)覆蓋