python模塊之HTMLParser: 解析html,獲取url

HTMLParser是python用來解析html的模塊誉己。它可以分析出html里面的標簽化撕、數(shù)據(jù)等等晓避，是一種處理html的簡便途徑。HTMLParser采用的是一種事件驅(qū)動的模式划滋，當(dāng)HTMLParser找到一個特定的標記時，它會去調(diào)用一個用戶定義的函數(shù)埃篓，以此來通知程序處理处坪。它主要的用戶回調(diào)函數(shù)的命名都是以handler_開頭的，都是HTMLParser的成員函數(shù)架专。當(dāng)我們使用時同窘，就從HTMLParser派生出新的類，然后重新定義這幾個以handler_開頭的函數(shù)即可胶征。這幾個函數(shù)包括：

handle_startendtag? 處理開始標簽和結(jié)束標簽

handle_starttag???? 處理開始標簽塞椎，比如

handle_endtag?????? 處理結(jié)束標簽，比如

handle_charref????? 處理特殊字符串睛低，就是以&#開頭的案狠，一般是內(nèi)碼表示的字符

handle_entityref??? 處理一些特殊字符，以&開頭的钱雷，比如?

handle_data???????? 處理數(shù)據(jù)骂铁，就是data中間的那些數(shù)據(jù)

handle_comment????? 處理注釋

handle_decl???????? 處理

handle_pi?????????? 處理形如的東西

這里我以從網(wǎng)頁中獲取到url為例，介紹一下罩抗。要想獲取到url拉庵，肯定是要分析標簽，然后取到它的href屬性的值套蒂。下面是代碼：

#-*-?encoding:?gb2312?-*-

importHTMLParser

classMyParser(HTMLParser.HTMLParser):

def__init__(self):

HTMLParser.HTMLParser.__init__(self)

defhandle_starttag(self,?tag,?attrs):

#這里重新定義了處理開始標簽的函數(shù)

iftag=='a':

#判斷標簽的屬性

forname,valueinattrs:

ifname=='href':

printvalue

if__name__=='__main__':

a='test鏈接到163'

my=MyParser()

#傳入要分析的數(shù)據(jù)钞支，是html的茫蛹。

my.feed(a)

最后編輯于：2017.11.27 03:20:29

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市烁挟，隨后出現(xiàn)的幾起案子婴洼，更是在濱河造成了極大的恐慌，老刑警劉巖撼嗓，帶你破解...
沈念sama閱讀 221,331評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件柬采，死亡現(xiàn)場離奇詭異，居然都是意外死亡且警，警方通過查閱死者的電腦和手機粉捻，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,372評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來斑芜，“玉大人肩刃，你說我怎么就攤上這事⊙禾拢” “怎么了树酪？”我有些...
開封第一講書人閱讀 167,755評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長大州。經(jīng)常有香客問我续语，道長，這世上最難降的妖魔是什么厦画？我笑而不...
開封第一講書人閱讀 59,528評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任疮茄，我火速辦了婚禮，結(jié)果婚禮上根暑，老公的妹妹穿的比我還像新娘力试。我一直安慰自己，他們只是感情好排嫌，可當(dāng)我...
茶點故事閱讀 68,526評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布畸裳。她就那樣靜靜地躺著，像睡著了一般淳地。火紅的嫁衣襯著肌膚如雪怖糊。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,166評論 1贊 308
城市分裂傳說
那天颇象，我揣著相機與錄音伍伤，去河邊找鬼。笑死遣钳，一個胖子當(dāng)著我的面吹牛扰魂，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 40,768評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼劝评，長吁一口氣：“原來是場噩夢啊……” “哼姐直！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起蒋畜，我...
開封第一講書人閱讀 39,664評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤简肴，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后百侧，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,205評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡能扒，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,290評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年佣渴，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片初斑。...
茶點故事閱讀 40,435評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡辛润，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出见秤，到底是詐尸還是另有隱情砂竖，我是刑警寧澤，帶...
沈念sama閱讀 36,126評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布鹃答，位于F島的核電站乎澄，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏测摔。R本人自食惡果不足惜置济，卻給世界環(huán)境...
茶點故事閱讀 41,804評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望锋八。院中可真熱鬧浙于，春花似錦、人聲如沸挟纱。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,276評論 0贊 23
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽紊服。三九已至檀轨，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間围苫，已是汗流浹背裤园。一陣腳步聲響...
開封第一講書人閱讀 33,393評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留剂府，地道東北人拧揽。一個月前我還...
沈念sama閱讀 48,818評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親淤袜。傳聞我的和親對象是個殘疾皇子痒谴，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,442評論 2贊 359

python模塊之HTMLParser: 解析html,獲取url

推薦閱讀更多精彩內(nèi)容