最近有一個(gè)任務(wù)菠剩,從頁面中抓取頁面中所有的鏈接,當(dāng)然使用PHP正則表達(dá)式是最方便的辦法耻煤。要寫出正則表達(dá)式具壮,就要先總結(jié)出模式,那么頁面中的鏈接會(huì)有幾種形式呢违霞?
鏈接也就是超級(jí)鏈接嘴办,是從一個(gè)元素(文字、圖片买鸽、視頻等)鏈接到另一個(gè)元素(文字涧郊、圖片、視頻等)眼五。網(wǎng)頁中的鏈接一般有三種妆艘,一種是絕對URL超鏈接,也就是一個(gè)頁面的完整路徑看幼;另一種是相對URL超鏈接批旺,一般都鏈接到同一網(wǎng)站的其他頁面;還有一種是頁面內(nèi)的超鏈接诵姜,這種一般鏈接到同一頁面內(nèi)的其他位置汽煮。
搞清楚了鏈接的種類,就知道要抓鏈接棚唆,主要還是絕對URL超鏈接和相對URL超鏈接暇赤。要寫出正確的正則表達(dá)式,就必須要了解我們查找的對象的模式宵凌。
先說絕對鏈接鞋囊,也叫作URL(Uniform Resource Locator),標(biāo)識(shí)了互聯(lián)網(wǎng)上的唯一資源瞎惫。URL的結(jié)構(gòu)包含三部分:協(xié)議溜腐、服務(wù)器名稱译株、路徑和文件名。
協(xié)議是告訴瀏覽器如何處理將要打開文件的標(biāo)識(shí)挺益,最常見的就是 http 協(xié)議歉糜。本文也只考慮HTTP協(xié)議,至于其他的 https矩肩、ftp现恼、mailto、telnet協(xié)議等黍檩,根據(jù)需要也可以添加叉袍。
服務(wù)器名稱是告訴瀏覽器如何到達(dá)這個(gè)服務(wù)器的方式,通常是域名或者IP地址刽酱,有時(shí)還會(huì)包含端口號(hào)(默認(rèn)為80)喳逛。FTP協(xié)議中,也可以包含用戶名和密碼棵里,本文就不考慮了润文。
路徑和文件名,一般以 / 分割殿怜,指出到達(dá)這個(gè)文件的路徑和文件本身的名稱典蝌。如果沒有具體的文件名,則訪問這個(gè)文件夾下的默認(rèn)文件(可以在服務(wù)器端設(shè)置)头谜。
那么現(xiàn)在清楚了骏掀,要抓取的絕對鏈接的典型形式可以概括為
http://www.xxx.com/xxx/yyy/zzz.html
每個(gè)部分可以使用的字符范圍有明確的規(guī)范,具體可以參考RFC1738柱告。那么正則表達(dá)式就可以寫出來了截驮。
/(http|https)://([\w\d-]+[.\w\d-]+)[:\d+]?([/]?[\w/.]+)/i
解釋如下:
(http|https)第一個(gè)括號(hào)內(nèi)匹配的是協(xié)議部分。
([\w\d-]+[.\w\d-]+)第二個(gè)括號(hào)內(nèi)匹配的是域名部分际度。
([/]?[\w/.]+)第三個(gè)括號(hào)內(nèi)匹配的是相對路徑葵袭。
寫到這個(gè)時(shí)候,基本上大部分的網(wǎng)址都能匹配到了乖菱,但是對于URL中帶有參數(shù)的還不能抓取坡锡,這樣有可能造成再次訪問的時(shí)候頁面報(bào)錯(cuò)。關(guān)于參數(shù)RFC1738規(guī)范中要求是用窒所?來分割娜氏,后面帶上參數(shù),但是現(xiàn)代的RIA應(yīng)用有可能使用其他奇怪的形式進(jìn)行分割墩新。
稍微修改一下,這樣就可以將查詢參數(shù)部分搜索出來窟坐。這里仍然沒有涵蓋全部的情況海渊,例如URL中有中文绵疲、有空格及其他特殊字符的情況,但是基本上能夠滿足我的需求了臣疑,就沒有繼續(xù)深化盔憨。
/(http|ftp|https)://([\w\d-]+[.\w\d-]+)[:\d+]?([/]?[\w/.?=&;%@#+,]+)/i
使用括號(hào)的好處是,在處理結(jié)果時(shí)讯沈,可以很容易的獲取到協(xié)議郁岩、域名、相對路徑這些內(nèi)容缺狠,方便后續(xù)的處理问慎。
例如使用 preg_match_all() 匹配時(shí),結(jié)果數(shù)組索引0為全部結(jié)果挤茄、1為協(xié)議如叼、2為域名、3為相對路徑穷劈。