最近在寫爬蟲的時(shí)候發(fā)現(xiàn),有很多網(wǎng)頁(yè)中的翻頁(yè)以及列表的中的選擇項(xiàng)的超鏈接都是采用的相對(duì)地址么夫。那么你要抓取對(duì)應(yīng)的網(wǎng)頁(yè)沸枯,則必須先將其補(bǔ)全為絕對(duì)地址,再進(jìn)行request甲葬,才能抓取到對(duì)應(yīng)的內(nèi)容廊勃。
那么如何進(jìn)行補(bǔ)全呢懈贺?我簡(jiǎn)單地講述一下我所遇到的幾種情況经窖,以及在Python中的具體解決方式坡垫。
- 以 '/' 開頭
表示根地址+相對(duì)地址 - 以 './' 開頭
表示當(dāng)前目錄的地址+相對(duì)地址 - 以 '../' 開頭
表示上一級(jí)目錄的地址+相對(duì)地址 - 除上述三種情況外,不以任何符號(hào)作為開頭
與第二種情況一致画侣,表示當(dāng)前目錄的地址+相對(duì)地址
下面以具體的例子分別講述如何用python代碼補(bǔ)全相對(duì)地址:
用current_url
表示當(dāng)前頁(yè)面的網(wǎng)址
用relative_url
表示我們獲取到的相對(duì)地址
用complete_url
表示補(bǔ)全后的地址
第一種情況:以 '/' 開頭
理論:根地址+相對(duì)地址
分析:根地址就是‘://’和下一個(gè) '/' 中間的一段冰悠,運(yùn)用字符串的切片方法,按照斜杠進(jìn)行切片配乱,最后再進(jìn)行組裝即可溉卓。
>>> current_url = "http://www.zhitongcaijing.com/"
>>> relative_url = "/content/detail/67357.html"
>>> complete_url = current_url.split('/')[0]+ '//' + current_url.split('/')[2] + relative_url
>>> complete_url
'http://www.zhitongcaijing.com/content/detail/67357.html'
第二種情況:以 './' 開頭
理論:當(dāng)前目錄的地址+相對(duì)地址
分析:當(dāng)前目錄的地址,如圖1所示搬泥。斜杠就表示分級(jí)桑寨,就和本地文件夾一致,用斜杠來(lái)表示層次結(jié)構(gòu)忿檩。
>>>current_url = "http://www.zhitongcaijing.com/content/detail/67357.html"
>>> relative_url = "./67331.html"
>>> complete_url = current_url.replace(current_url.split('/')[-1], relative_url [2:]) # 將最后一個(gè)斜杠后面的字符串(注意保留最后一個(gè)斜杠)用相對(duì)地址替換掉尉尾,注意將相對(duì)地址中的'./'抹掉
>>> complete_url
'http://www.zhitongcaijing.com/content/detail/67331.html'
第三種情況:以 '../
' 開頭
理論:<font color="red">上一級(jí)目錄的地址+相對(duì)地址</font>
分析:首先要判斷相對(duì)地址中有多少個(gè) '../
' ,才能進(jìn)一步確定要向上返回多少級(jí)燥透。如圖2所示沙咏,中證網(wǎng)的網(wǎng)頁(yè)結(jié)構(gòu)。那么如何判斷一個(gè)字符串中有多少個(gè)給定子字符串呢班套,作者采用正則表達(dá)式的方式進(jìn)行判斷的肢藐,詳見代碼如下。
>>> import re # 引入正則表達(dá)式的庫(kù)
>>> dire_Regex = re.compile(r'\.\./') # 創(chuàng)建正則表達(dá)式對(duì)象
>>>current_url = "http://www.cs.com.cn/ssgs/ssb/201707/t20170707_5363166.html"
>>> relative_url = "../../gppd/sjjj/201707/t20170708_5363690.html"
>>> length = len(dire_Regex.findall(each_url)) # 確定'../'的個(gè)數(shù)
>>> complete_url = current_url.replace("".join(current_url.split('/')[-length - 1:]), relative_url[length * 3:])
>>> complete_url
'http://www.cs.com.cn/gppd/sjjj/201707/t20170708_5363690.html'
第四種情況:
與第二種情況一致吱韭,不再贅述吆豹。
最后介紹一種簡(jiǎn)單的辦法,筆者在歷經(jīng)多重磨難之后理盆,終于發(fā)現(xiàn)瞻讽,原來(lái)Python有一個(gè)庫(kù)自帶了補(bǔ)全相對(duì)地址的辦法 (/(ㄒoㄒ)/~~)
>>> from urllib.parse import urljoin
>>> current_url = "http://www.zhitongcaijing.com/"
>>> relative_url = "/content/detail/67357.html"
>>> complete_url = urljoin(current_url, relative_url)
>>> complete_url
'http://www.zhitongcaijing.com/content/detail/67357.html'
如果給定的是空鏈接,則補(bǔ)全的結(jié)果仍然是原鏈接熏挎;
>>> from urllib.parse import urljoin
>>> url1 = "http://blog.csdn.net/hbr2014/article/details/46514277"
>>> url2 = ""
>>> complete_url = urljoin(url1, url2)
'http://blog.csdn.net/hbr2014/article/details/46514277'
如果給定的是完整的鏈接速勇,則補(bǔ)全的結(jié)果是新的鏈接。
>>> from urllib.parse import urljoin
>>> url1 = "http://blog.csdn.net/hbr2014/article/details/46514277"
>>> url2 = "http://blog.csdn.net/firewall5788"
>>> complete_url = urljoin(url1, url2)
'http://blog.csdn.net/firewall5788'
附
該文章于2017年7月4日于CSDN上首次發(fā)表坎拐,2017年12月24日搬家至此烦磁!