信息提取的一般方法及實(shí)例
信息提取
從標(biāo)記后的信息中提取所關(guān)注的內(nèi)容
(標(biāo)記,信息)
方法一:完整解析信息的標(biāo)記形式歹撒,再提取關(guān)鍵信息
- 需要標(biāo)記解析器,例如:bs4庫的標(biāo)簽樹遍歷
- 優(yōu)點(diǎn):信息解析準(zhǔn)確
- 缺點(diǎn):提取過程繁瑣,速度慢
方法二:無視標(biāo)記信息爬凑,直接搜索關(guān)鍵信息
- 對信息的文本查找函數(shù)即可
- 優(yōu)點(diǎn): 提取過程簡潔,速度較快
- 缺點(diǎn): 提取結(jié)果準(zhǔn)確性與信息內(nèi)容相關(guān)
融合方法:結(jié)合形式解析與搜索方法冒黑,提取關(guān)鍵信息
- 需要標(biāo)記解析器及文本查找函數(shù)
實(shí)例
提取HTML中所有URL鏈接
思路:
1) 搜索到所有<a>標(biāo)簽
2)解析<a>標(biāo)簽格式田绑,提取hre后的鏈接內(nèi)容