開發(fā)環(huán)境：
Python 3.6.0 版本 （當(dāng)前最新）
Scrapy 1.3.2 版本 （當(dāng)前最新）

鏈接提取器

鏈接提取器是其唯一目的是從scrapy.http.Response最終將跟隨的網(wǎng)頁（對象）提取鏈接的對象。

有Scrapy，但你可以創(chuàng)建自己的自定義鏈接提取器探越，以滿足您的需求通??過實(shí)現(xiàn)一個簡單的界面庭再。scrapy.linkextractors import LinkExtractor

每個鏈接提取器唯一的公共方法是extract_links接收一個Response對象并返回一個scrapy.link.Link對象列表筛严。鏈接提取器意在被實(shí)例化一次框沟，并且它們的extract_links方法被調(diào)用幾次晋修，具有不同的響應(yīng)以提取跟隨的鏈接六水。

鏈接提取程序CrawlSpider 通過一組規(guī)則在類中使用（可以在Scrapy中使用）俺孙，但是您也可以在爬蟲中使用它，即使不從其中CrawlSpider提取子類缩擂，因?yàn)槠淠康姆浅：唵危禾崛℃溄印?/p>

內(nèi)置鏈接提取器參考

scrapy.linkextractors模塊中提供了與Scrapy捆綁在一起的鏈接提取器類鼠冕。

默認(rèn)的鏈接提取器是LinkExtractor，它是相同的 LxmlLinkExtractor：

from scrapy.linkextractors import LinkExtractor

以前的Scrapy版本中曾經(jīng)有過其他鏈接提取器類胯盯，但現(xiàn)在已經(jīng)過時了懈费。

LxmlLinkExtractor

class scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), restrict_css=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)

LxmlLinkExtractor是推薦的鏈接提取器與方便的過濾選項(xiàng)。它使用lxml的強(qiáng)大的HTMLParser實(shí)現(xiàn)博脑。

**參數(shù)： **

allow（正則表達(dá)式（或的列表）） - 一個單一的正則表達(dá)式（或正則表達(dá)式列表）憎乙，（絕對）urls必須匹配才能提取。如果沒有給出（或?yàn)榭眨┎嫒ぃ鼘⑵ヅ渌墟溄印?/li>
deny（正則表達(dá)式或正則表達(dá)式列表） - 一個正則表達(dá)式（或正則表達(dá)式列表）泞边，（絕對）urls必須匹配才能排除（即不提取）疗杉。它優(yōu)先于allow參數(shù)阵谚。如果沒有給出（或?yàn)榭眨粫懦魏捂溄印?/li>
allow_domains（str或list） - 單個值或包含將被考慮用于提取鏈接的域的字符串列表
deny_domains（str或list） - 單個值或包含不會被考慮用于提取鏈接的域的字符串列表
deny_extensions（list） - 包含在提取鏈接時應(yīng)該忽略的擴(kuò)展的單個值或字符串列表烟具。如果沒有給出梢什，它將默認(rèn)為IGNORED_EXTENSIONS在scrapy.linkextractors包中定義的列表。
restrict_xpaths（str或list） - 是一個XPath（或XPath的列表）朝聋，它定義響應(yīng)中應(yīng)從中提取鏈接的區(qū)域嗡午。如果給出，只有那些XPath選擇的文本將被掃描鏈接冀痕。參見下面的例子荔睹。
restrict_css（str或list） - 一個CSS選擇器（或選擇器列表），用于定義響應(yīng)中應(yīng)提取鏈接的區(qū)域言蛇。有相同的行為restrict_xpaths僻他。
標(biāo)簽（str或list） - 標(biāo)簽或在提取鏈接時要考慮的標(biāo)簽列表。默認(rèn)為腊尚。('a', 'area')
attrs（list） - 在查找要提取的鏈接時應(yīng)該考慮的屬性或?qū)傩粤斜恚▋H適用于參數(shù)中指定的那些標(biāo)簽tags ）吨拗。默認(rèn)為('href',)
canonicalize（boolean） - 規(guī)范化每個提取的url（使用w3lib.url.canonicalize_url）。默認(rèn)為True。
unique（boolean） - 是否應(yīng)對提取的鏈接應(yīng)用重復(fù)過濾丢胚。
process_value（callable） -
接收從標(biāo)簽提取的每個值和掃描的屬性并且可以修改值并返回新值的函數(shù)，或者返回None以完全忽略鏈接受扳。如果沒有給出携龟，process_value默認(rèn)為。lambda x: x

例如勘高，要從此代碼中提取鏈接：

<a href="javascript:goToPage('../other/page.html'); return false">Link text</a>

您可以使用以下功能process_value：

def process_value(value):
    m = re.search("javascript:goToPage\('(.*?)'", value)
    if m:
        return m.group(1)

最后編輯于：2017.12.06 02:57:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末峡蟋，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子华望，更是在濱河造成了極大的恐慌蕊蝗，老刑警劉巖，帶你破解...
沈念sama閱讀 218,755評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件赖舟，死亡現(xiàn)場離奇詭異蓬戚，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)宾抓，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門子漩，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人石洗，你說我怎么就攤上這事幢泼。” “怎么了讲衫？”我有些...
開封第一講書人閱讀 165,138評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵缕棵，是天一觀的道長。經(jīng)常有香客問我涉兽，道長招驴，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,791評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任花椭，我火速辦了婚禮忽匈，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘矿辽。我一直安慰自己丹允，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,794評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布袋倔。她就那樣靜靜地躺著雕蔽，像睡著了一般。火紅的嫁衣襯著肌膚如雪宾娜。梳的紋絲不亂的頭發(fā)上批狐，一...
開封第一講書人閱讀 51,631評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音，去河邊找鬼嚣艇。笑死承冰，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的食零。我是一名探鬼主播困乒，決...
沈念sama閱讀 40,362評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼贰谣！你這毒婦竟也來了娜搂？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,264評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤吱抚，失蹤者是張志新（化名）和其女友劉穎百宇，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體秘豹，經(jīng)...
沈念sama閱讀 45,724評論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡携御，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了既绕。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片因痛。...
茶點(diǎn)故事閱讀 40,040評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖岸更，靈堂內(nèi)的尸體忽然破棺而出鸵膏，到底是詐尸還是另有隱情，我是刑警寧澤怎炊，帶...
沈念sama閱讀 35,742評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布谭企，位于F島的核電站，受9級特大地震影響评肆，放射性物質(zhì)發(fā)生泄漏债查。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,364評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一瓜挽、第九天我趴在偏房一處隱蔽的房頂上張望盹廷。院中可真熱鬧，春花似錦久橙、人聲如沸俄占。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評論 0贊 22
一樁弒父案淆衷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽缸榄。三九已至，卻和暖如春祝拯，著一層夾襖步出監(jiān)牢的瞬間甚带，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,060評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鹰贵，地道東北人晴氨。一個月前我還...
沈念sama閱讀 48,247評論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長得像碉输，于是被迫代替她去往敵國和親瑞筐。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,979評論 2贊 355

Scrapy爬蟲入門教程十二 Link Extractors（鏈接提取器）

Scrapy爬蟲入門教程十二 Link Extractors（鏈接提取器）

鏈接提取器

內(nèi)置鏈接提取器參考

LxmlLinkExtractor

推薦閱讀更多精彩內(nèi)容