href中的相對(duì)地址如何補(bǔ)全

最近在寫爬蟲的時(shí)候發(fā)現(xiàn),有很多網(wǎng)頁(yè)中的翻頁(yè)以及列表的中的選擇項(xiàng)的超鏈接都是采用的相對(duì)地址么夫。那么你要抓取對(duì)應(yīng)的網(wǎng)頁(yè)沸枯,則必須先將其補(bǔ)全為絕對(duì)地址,再進(jìn)行request甲葬,才能抓取到對(duì)應(yīng)的內(nèi)容廊勃。

那么如何進(jìn)行補(bǔ)全呢懈贺?我簡(jiǎn)單地講述一下我所遇到的幾種情況经窖,以及在Python中的具體解決方式坡垫。

  1. 以 '/' 開頭
    表示根地址+相對(duì)地址
  2. 以 './' 開頭
    表示當(dāng)前目錄的地址+相對(duì)地址
  3. 以 '../' 開頭
    表示上一級(jí)目錄的地址+相對(duì)地址
  4. 除上述三種情況外,不以任何符號(hào)作為開頭
    與第二種情況一致画侣,表示當(dāng)前目錄的地址+相對(duì)地址

下面以具體的例子分別講述如何用python代碼補(bǔ)全相對(duì)地址:

current_url表示當(dāng)前頁(yè)面的網(wǎng)址
relative_url表示我們獲取到的相對(duì)地址
complete_url表示補(bǔ)全后的地址

第一種情況:以 '/' 開頭
理論:根地址+相對(duì)地址
分析:根地址就是‘://’和下一個(gè) '/' 中間的一段冰悠,運(yùn)用字符串的切片方法,按照斜杠進(jìn)行切片配乱,最后再進(jìn)行組裝即可溉卓。

>>> current_url = "http://www.zhitongcaijing.com/"
>>> relative_url = "/content/detail/67357.html"
>>> complete_url = current_url.split('/')[0]+ '//' + current_url.split('/')[2] + relative_url
>>> complete_url
'http://www.zhitongcaijing.com/content/detail/67357.html'

第二種情況:以 './' 開頭
理論:當(dāng)前目錄的地址+相對(duì)地址
分析:當(dāng)前目錄的地址,如圖1所示搬泥。斜杠就表示分級(jí)桑寨,就和本地文件夾一致,用斜杠來(lái)表示層次結(jié)構(gòu)忿檩。

圖1 地址欄的URL結(jié)構(gòu)解析
>>>current_url = "http://www.zhitongcaijing.com/content/detail/67357.html"
>>> relative_url = "./67331.html"
>>> complete_url = current_url.replace(current_url.split('/')[-1], relative_url [2:]) # 將最后一個(gè)斜杠后面的字符串(注意保留最后一個(gè)斜杠)用相對(duì)地址替換掉尉尾,注意將相對(duì)地址中的'./'抹掉
>>> complete_url
'http://www.zhitongcaijing.com/content/detail/67331.html'

第三種情況:以 '../' 開頭
理論:<font color="red">上一級(jí)目錄的地址+相對(duì)地址</font>
分析:首先要判斷相對(duì)地址中有多少個(gè) '../' ,才能進(jìn)一步確定要向上返回多少級(jí)燥透。如圖2所示沙咏,中證網(wǎng)的網(wǎng)頁(yè)結(jié)構(gòu)。那么如何判斷一個(gè)字符串中有多少個(gè)給定子字符串呢班套,作者采用正則表達(dá)式的方式進(jìn)行判斷的肢藐,詳見代碼如下。

圖2 中證網(wǎng)中的相對(duì)地址舉例
>>> import re # 引入正則表達(dá)式的庫(kù)
>>> dire_Regex = re.compile(r'\.\./') # 創(chuàng)建正則表達(dá)式對(duì)象
>>>current_url = "http://www.cs.com.cn/ssgs/ssb/201707/t20170707_5363166.html"
>>> relative_url = "../../gppd/sjjj/201707/t20170708_5363690.html"
>>> length = len(dire_Regex.findall(each_url)) # 確定'../'的個(gè)數(shù)
>>> complete_url = current_url.replace("".join(current_url.split('/')[-length - 1:]), relative_url[length * 3:])
>>> complete_url
'http://www.cs.com.cn/gppd/sjjj/201707/t20170708_5363690.html'

第四種情況:
與第二種情況一致吱韭,不再贅述吆豹。


最后介紹一種簡(jiǎn)單的辦法,筆者在歷經(jīng)多重磨難之后理盆,終于發(fā)現(xiàn)瞻讽,原來(lái)Python有一個(gè)庫(kù)自帶了補(bǔ)全相對(duì)地址的辦法 (/(ㄒoㄒ)/~~)

>>> from urllib.parse import urljoin
>>> current_url = "http://www.zhitongcaijing.com/"
>>> relative_url = "/content/detail/67357.html"
>>> complete_url = urljoin(current_url, relative_url)
>>>  complete_url
'http://www.zhitongcaijing.com/content/detail/67357.html'

如果給定的是空鏈接,則補(bǔ)全的結(jié)果仍然是原鏈接熏挎;

>>> from urllib.parse import urljoin
>>> url1 = "http://blog.csdn.net/hbr2014/article/details/46514277"
>>> url2 = ""
>>> complete_url = urljoin(url1, url2)
'http://blog.csdn.net/hbr2014/article/details/46514277'

如果給定的是完整的鏈接速勇,則補(bǔ)全的結(jié)果是新的鏈接。

>>> from urllib.parse import urljoin
>>> url1 = "http://blog.csdn.net/hbr2014/article/details/46514277"
>>> url2 = "http://blog.csdn.net/firewall5788"
>>> complete_url = urljoin(url1, url2)
'http://blog.csdn.net/firewall5788'


該文章于2017年7月4日于CSDN上首次發(fā)表坎拐,2017年12月24日搬家至此烦磁!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市哼勇,隨后出現(xiàn)的幾起案子都伪,更是在濱河造成了極大的恐慌,老刑警劉巖积担,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件陨晶,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)先誉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門湿刽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事』比穑” “怎么了征绎?”我有些...
    開封第一講書人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么仁烹? 我笑而不...
    開封第一講書人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮咧虎,結(jié)果婚禮上晃危,老公的妹妹穿的比我還像新娘。我一直安慰自己老客,他們只是感情好僚饭,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著胧砰,像睡著了一般鳍鸵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上尉间,一...
    開封第一講書人閱讀 51,541評(píng)論 1 305
  • 那天偿乖,我揣著相機(jī)與錄音,去河邊找鬼哲嘲。 笑死贪薪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的眠副。 我是一名探鬼主播画切,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼囱怕!你這毒婦竟也來(lái)了霍弹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤娃弓,失蹤者是張志新(化名)和其女友劉穎典格,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體台丛,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡耍缴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片防嗡。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡变汪,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出本鸣,到底是詐尸還是另有隱情,我是刑警寧澤硅蹦,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布荣德,位于F島的核電站,受9級(jí)特大地震影響童芹,放射性物質(zhì)發(fā)生泄漏涮瞻。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一假褪、第九天 我趴在偏房一處隱蔽的房頂上張望署咽。 院中可真熱鬧,春花似錦生音、人聲如沸宁否。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)慕匠。三九已至,卻和暖如春域醇,著一層夾襖步出監(jiān)牢的瞬間台谊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工譬挚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留锅铅,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓减宣,卻偏偏與公主長(zhǎng)得像盐须,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子漆腌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理丰歌,服務(wù)發(fā)現(xiàn),斷路器屉凯,智...
    卡卡羅2017閱讀 134,657評(píng)論 18 139
  • linux資料總章2.1 1.0寫的不好抱歉 但是2.0已經(jīng)改了很多 但是錯(cuò)誤還是無(wú)法避免 以后資料會(huì)慢慢更新 大...
    數(shù)據(jù)革命閱讀 12,168評(píng)論 2 33
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,133評(píng)論 25 707
  • Ubuntu的發(fā)音 Ubuntu,源于非洲祖魯人和科薩人的語(yǔ)言,發(fā)作 oo-boon-too 的音绑咱。了解發(fā)音是有意...
    螢火蟲de夢(mèng)閱讀 99,271評(píng)論 9 467
  • 我對(duì)美食的熱愛在朋友圈里是出了名的绰筛,尤其喜歡吃甜品,也要感謝鄭州這幾年的飛速發(fā)展描融,全國(guó)各地的美食在大街小巷都能找得...
    作精小怪獸閱讀 336評(píng)論 0 1