Python 優(yōu)雅的處理網(wǎng)頁URL參數(shù)

一:前言

以前年少無知,不知道Python 官方模塊里面有處理 URL的虑啤,拿起正則一頓匹配,所以在匹配url里面的頁面的時候出現(xiàn)了問題架馋。同時也怪我測試環(huán)境是Python3 線上生產(chǎn)環(huán)境是Python 2归榕,對無序字典urlencode不一樣,以及寫的正則匹配問題谁榜。最后造成的結(jié)果是頁面少匹配了很多頁數(shù)據(jù),最后按步測試才找到問題坷剧。
所以正確的使用URL處理模塊還是方便和明智的

第三方模塊有 yurl惰爬, Python3內(nèi)置的有urllib.parse
Python2 處理url的模塊不在一個位置, urllib里面有urlencode....惫企,urlparse里面有urlparse,`parse_qsl....

參考鏈接:

二:目標(biāo)

舉個 利用API 獲取數(shù)據(jù)的例子:
下面有個 url 和一個需要POST的參數(shù)字典撕瞧,需要構(gòu)造完成后發(fā)送參數(shù)獲取數(shù)據(jù),判斷數(shù)據(jù)是否需要進(jìn)行下一頁狞尔,如果需要那么 page 部分需要提取出來后加1丛版,再繼續(xù)請求數(shù)據(jù)。
其實要做的事情很簡單偏序,提取page 加1页畦,繼續(xù)請求。

raw_url = 'http://api.xxxxxx.com/xxxxxx/xxx.json?'
param_dict = {
    'id': 'xxxxx',
    'card_addition': 1,
    'token': 'fdflsdkr3029432',
    'page': 145334,
}

三:實戰(zhàn)代碼

當(dāng)時在Scrapy 的 start_requests 大致這樣寫的

ids = pipeline.execute()
for id in ids:
    self.param_dict['id'] = id.strip()
    param = urlencode(self.param_dict)
    url = self.raw_url + param
    yield scrapy.Request(url=url, callback=self.parse)

# 

然后在 parse 里面對response做判斷如果還需要對該id下的數(shù)據(jù)抓取下一頁數(shù)據(jù)研儒。
當(dāng)時我直接對response.url正則匹配再加上Python3與Python 2豫缨,對無序字典urlencode不一樣就出現(xiàn)少匹配了很多頁面的問題。所以回來我利用python內(nèi)置的URL 處理模塊端朵,我就改了代碼好芭。

# 解析url,獲取url里面的各種組成成分
parsed_url = urlparse(response.url)
# 獲取url組成成分里面的 query 參數(shù)部分
query = dict(parse_qsl(parsed_url.query))
# 獲取page的數(shù)值冲呢,加1后重新urlencode 這樣 下一頁的 url就構(gòu)造完成了
page = query.get('page')
query['page'] = int(page) + 1
param = urlencode(query)
next_url = raw_url + param

四: 后記

多多思考舍败,多多搜索。加油敬拓!
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末邻薯,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子乘凸,更是在濱河造成了極大的恐慌厕诡,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件营勤,死亡現(xiàn)場離奇詭異木人,居然都是意外死亡信柿,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門醒第,熙熙樓的掌柜王于貴愁眉苦臉地迎上來渔嚷,“玉大人,你說我怎么就攤上這事稠曼⌒尾。” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵霞幅,是天一觀的道長漠吻。 經(jīng)常有香客問我,道長司恳,這世上最難降的妖魔是什么途乃? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮扔傅,結(jié)果婚禮上耍共,老公的妹妹穿的比我還像新娘。我一直安慰自己猎塞,他們只是感情好试读,可當(dāng)我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著荠耽,像睡著了一般钩骇。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上铝量,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天倘屹,我揣著相機(jī)與錄音,去河邊找鬼慢叨。 笑死纽匙,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的插爹。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼请梢,長吁一口氣:“原來是場噩夢啊……” “哼赠尾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起毅弧,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤气嫁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后够坐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體寸宵,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡崖面,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了梯影。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片巫员。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖甲棍,靈堂內(nèi)的尸體忽然破棺而出简识,到底是詐尸還是另有隱情,我是刑警寧澤感猛,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布七扰,位于F島的核電站,受9級特大地震影響陪白,放射性物質(zhì)發(fā)生泄漏颈走。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一咱士、第九天 我趴在偏房一處隱蔽的房頂上張望立由。 院中可真熱鬧,春花似錦司致、人聲如沸拆吆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽枣耀。三九已至,卻和暖如春庭再,著一層夾襖步出監(jiān)牢的瞬間捞奕,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工拄轻, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留颅围,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓恨搓,卻偏偏與公主長得像院促,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子斧抱,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容