使用PHP的正則抓取頁面中的網(wǎng)址

最近有一個(gè)任務(wù)菠剩,從頁面中抓取頁面中所有的鏈接,當(dāng)然使用PHP正則表達(dá)式是最方便的辦法耻煤。要寫出正則表達(dá)式具壮,就要先總結(jié)出模式,那么頁面中的鏈接會(huì)有幾種形式呢违霞?

鏈接也就是超級(jí)鏈接嘴办,是從一個(gè)元素(文字、圖片买鸽、視頻等)鏈接到另一個(gè)元素(文字涧郊、圖片、視頻等)眼五。網(wǎng)頁中的鏈接一般有三種妆艘,一種是絕對URL超鏈接,也就是一個(gè)頁面的完整路徑看幼;另一種是相對URL超鏈接批旺,一般都鏈接到同一網(wǎng)站的其他頁面;還有一種是頁面內(nèi)的超鏈接诵姜,這種一般鏈接到同一頁面內(nèi)的其他位置汽煮。

搞清楚了鏈接的種類,就知道要抓鏈接棚唆,主要還是絕對URL超鏈接和相對URL超鏈接暇赤。要寫出正確的正則表達(dá)式,就必須要了解我們查找的對象的模式宵凌。

先說絕對鏈接鞋囊,也叫作URL(Uniform Resource Locator),標(biāo)識(shí)了互聯(lián)網(wǎng)上的唯一資源瞎惫。URL的結(jié)構(gòu)包含三部分:協(xié)議溜腐、服務(wù)器名稱译株、路徑和文件名。

協(xié)議是告訴瀏覽器如何處理將要打開文件的標(biāo)識(shí)挺益,最常見的就是 http 協(xié)議歉糜。本文也只考慮HTTP協(xié)議,至于其他的 https矩肩、ftp现恼、mailto、telnet協(xié)議等黍檩,根據(jù)需要也可以添加叉袍。

服務(wù)器名稱是告訴瀏覽器如何到達(dá)這個(gè)服務(wù)器的方式,通常是域名或者IP地址刽酱,有時(shí)還會(huì)包含端口號(hào)(默認(rèn)為80)喳逛。FTP協(xié)議中,也可以包含用戶名和密碼棵里,本文就不考慮了润文。

路徑和文件名,一般以 / 分割殿怜,指出到達(dá)這個(gè)文件的路徑和文件本身的名稱典蝌。如果沒有具體的文件名,則訪問這個(gè)文件夾下的默認(rèn)文件(可以在服務(wù)器端設(shè)置)头谜。

那么現(xiàn)在清楚了骏掀,要抓取的絕對鏈接的典型形式可以概括為

http://www.xxx.com/xxx/yyy/zzz.html

每個(gè)部分可以使用的字符范圍有明確的規(guī)范,具體可以參考RFC1738柱告。那么正則表達(dá)式就可以寫出來了截驮。

/(http|https)://([\w\d-]+[.\w\d-]+)[:\d+]?([/]?[\w/.]+)/i

解釋如下:

(http|https)第一個(gè)括號(hào)內(nèi)匹配的是協(xié)議部分。

([\w\d-]+[.\w\d-]+)第二個(gè)括號(hào)內(nèi)匹配的是域名部分际度。

([/]?[\w/.]+)第三個(gè)括號(hào)內(nèi)匹配的是相對路徑葵袭。

寫到這個(gè)時(shí)候,基本上大部分的網(wǎng)址都能匹配到了乖菱,但是對于URL中帶有參數(shù)的還不能抓取坡锡,這樣有可能造成再次訪問的時(shí)候頁面報(bào)錯(cuò)。關(guān)于參數(shù)RFC1738規(guī)范中要求是用窒所?來分割娜氏,后面帶上參數(shù),但是現(xiàn)代的RIA應(yīng)用有可能使用其他奇怪的形式進(jìn)行分割墩新。

稍微修改一下,這樣就可以將查詢參數(shù)部分搜索出來窟坐。這里仍然沒有涵蓋全部的情況海渊,例如URL中有中文绵疲、有空格及其他特殊字符的情況,但是基本上能夠滿足我的需求了臣疑,就沒有繼續(xù)深化盔憨。

/(http|ftp|https)://([\w\d-]+[.\w\d-]+)[:\d+]?([/]?[\w/.?=&;%@#+,]+)/i

使用括號(hào)的好處是,在處理結(jié)果時(shí)讯沈,可以很容易的獲取到協(xié)議郁岩、域名、相對路徑這些內(nèi)容缺狠,方便后續(xù)的處理问慎。

例如使用 preg_match_all() 匹配時(shí),結(jié)果數(shù)組索引0為全部結(jié)果挤茄、1為協(xié)議如叼、2為域名、3為相對路徑穷劈。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末笼恰,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子歇终,更是在濱河造成了極大的恐慌社证,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件评凝,死亡現(xiàn)場離奇詭異追葡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)肥哎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門辽俗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人篡诽,你說我怎么就攤上這事崖飘。” “怎么了杈女?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵朱浴,是天一觀的道長。 經(jīng)常有香客問我达椰,道長翰蠢,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任啰劲,我火速辦了婚禮梁沧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蝇裤。我一直安慰自己廷支,他們只是感情好频鉴,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著恋拍,像睡著了一般垛孔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上施敢,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天周荐,我揣著相機(jī)與錄音,去河邊找鬼僵娃。 笑死概作,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的悯许。 我是一名探鬼主播仆嗦,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼先壕!你這毒婦竟也來了瘩扼?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤垃僚,失蹤者是張志新(化名)和其女友劉穎集绰,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體谆棺,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡栽燕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了改淑。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碍岔。...
    茶點(diǎn)故事閱讀 39,696評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖朵夏,靈堂內(nèi)的尸體忽然破棺而出蔼啦,到底是詐尸還是另有隱情,我是刑警寧澤仰猖,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布捏肢,位于F島的核電站,受9級(jí)特大地震影響饥侵,放射性物質(zhì)發(fā)生泄漏鸵赫。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一躏升、第九天 我趴在偏房一處隱蔽的房頂上張望辩棒。 院中可真熱鬧,春花似錦、人聲如沸盗温。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽卖局。三九已至,卻和暖如春双霍,著一層夾襖步出監(jiān)牢的瞬間砚偶,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工洒闸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留染坯,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓丘逸,卻偏偏與公主長得像单鹿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子深纲,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容