Python網(wǎng)絡爬蟲與信息提取（一）

Reference:

第一周網(wǎng)絡爬蟲之規(guī)則

單元1：Requests庫入門

1-1 Requests庫的安裝

1-2 Requests庫的get()方法

1-3 爬取網(wǎng)頁的通用代碼框架

1-4 HTTP協(xié)議與Requests庫方法

注意：put與post的區(qū)別

1-5 Requests庫主要方法解析

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Requests庫的7個主要方法

（一）. requests庫的request方法是所有方法的基礎方法爽蝴，它有三個參數(shù)，分別是：

method卷要，url和控制訪問參數(shù)----> requests.request(method,url,**kwargs)

method表示請求方式赂苗，對應get/put/post等7種

url指擬獲取頁面的url鏈接

**kwargs控制訪問參數(shù)，共13個渗蟹，均為可選項

（1）params

（2）data

（3）json

（4）headers

（5）cookies

（6）auth

（7）files

（8）timeout

（9）proxies

（10）allow_redirects

（11）stream

（12）verify

（13）cert

單元2：網(wǎng)絡爬蟲的“盜亦有道”

2-1 網(wǎng)絡爬蟲引發(fā)的問題

網(wǎng)絡爬蟲的尺寸

網(wǎng)絡爬蟲的“騷擾”（對服務器性能的騷擾）

服務器默認是按照人數(shù)來約定它的訪問能力块饺，但當有爬蟲加入的時候赞辩，服務器可能很難提供那么高的性能。

網(wǎng)絡爬蟲的法律風險（內(nèi)容層面）

服務器上的數(shù)據(jù)有產(chǎn)權歸屬授艰，網(wǎng)絡爬蟲獲取數(shù)據(jù)后牟利將帶來法律風險辨嗽。

網(wǎng)絡爬蟲的泄露隱私（個人隱私泄露）

網(wǎng)絡爬蟲可能具備突破簡單訪問控制的能力，獲得被保護數(shù)據(jù)從而泄露個人隱私淮腾。

對于一般的服務器來說召庞，可以用兩種方式限制網(wǎng)絡爬蟲：

（1）如果網(wǎng)站的所有者具有一定的技術能力，可以通過來源審查來限制網(wǎng)絡爬蟲来破。

來源審查：判斷User-Agent進行限制

檢查來訪HTTP協(xié)議頭的User-Agent域篮灼，只響應瀏覽器或友好爬蟲的訪問。

（2）發(fā)布公告：Robots協(xié)議

告知所有爬蟲網(wǎng)站的爬取策略徘禁，要求爬蟲遵守诅诱。

2-2 Robots協(xié)議=Robots Exclusion Standard 網(wǎng)絡爬蟲排除標準

作用：網(wǎng)站告知網(wǎng)絡爬蟲哪些頁面可以抓取，哪些不行送朱。

形式：在網(wǎng)站根目錄下的robots.txt文件娘荡。通過基本語法告知網(wǎng)絡爬蟲，該網(wǎng)站內(nèi)部資源可以被訪問的權限驶沼。

規(guī)定：robots協(xié)議規(guī)定炮沐，如果一個網(wǎng)站不提供robots.txt文件，則說明這個網(wǎng)站允許所有爬蟲無限制的爬取其內(nèi)容回怜。

Robots協(xié)議基本語法：

User-agent：*

Disallow：/

注釋: ? * 代表所有大年，/ ?代表根目錄

案例：京東的Robots協(xié)議

https://www.jd.com/robots.txt

http://www.baidu.com/robots.txt ? ? ? ? ? 百度

http://news.sina.com.cn/robots.txt ? ? ? ?新浪新聞

http://www.qq.com/robots.txt ? ? ? ? ? ? ? ?qq

http://news.qq.com.cn/robots.txt ? ? ? ? ? qq新聞

http://www.moe.edu.cn/robots.txt（無robots協(xié)議） ? ? ? ? 我國教育部的網(wǎng)站

2-3 Robots協(xié)議的遵守方式

robots協(xié)議的使用

網(wǎng)絡爬蟲：自動或人工識別robots.txt，再進行內(nèi)容爬取玉雾。

約束性：Robots協(xié)議是建議但非約束性翔试，網(wǎng)絡爬蟲可以不遵守，但存在法律風險复旬。

TIPS.類人行為可以不參考Robots協(xié)議

單元3：Requests庫網(wǎng)絡爬蟲實戰(zhàn)（5個實例）

3-1 實例1：京東商品頁面的爬取

STEP1.? 打開京東頁面垦缅，選取一款商品。比如：https://item.jd.com/4939144.html

通過寫程序驹碍，獲得該商品的相關信息壁涎。

STEP2. ? 全代碼

3-2 實例2：亞馬遜商品頁面的爬取

對于一些保護的比較好的網(wǎng)站，通過模擬瀏覽器志秃，發(fā)起請求怔球。

3-3 實例3：百度/360搜索關鍵詞提交

搜索引擎關鍵詞提交接口：

百度的關鍵詞接口: ? ?http://www.baidu.com/s?wd=keyword

360的關鍵詞接口： ? ?http://www.so.com/s?q=keyword

在這兩個接口中，只要我們替換keyword就可以向搜索引擎提交關鍵詞洽损，構造這樣的url就可以實現(xiàn)關鍵詞的提取庞溜。

3-4 實例4：網(wǎng)絡圖片的爬取和存儲

網(wǎng)絡圖片的爬取

網(wǎng)絡圖片鏈接的格式：

http://www.example.com/picture.jpg

國家地理：http://www.nationalgeographic.com.cn/

選擇一個圖片Web頁面：http://www.nationalgeographic.com.cn/photography/photo_of_the_day/4082.html ? 右鍵圖片屬性

http://image.nationalgeographic.com.cn/2017/0509/20170509021454807.jpg

3-5 實例5：IP地址歸屬地的自動查詢

IP138網(wǎng)站 http://www.ip138.com/

http://m.ip138.com/ip.asp?ip=ipaddress? 例如：202.204.80.112 北京理工大學網(wǎng)站

最后編輯于：2017.12.07 04:45:55

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子流码，更是在濱河造成了極大的恐慌又官，老刑警劉巖，帶你破解...
沈念sama閱讀 210,914評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件漫试，死亡現(xiàn)場離奇詭異六敬，居然都是意外死亡，警方通過查閱死者的電腦和手機驾荣，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,935評論 2贊 383
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門外构，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人播掷，你說我怎么就攤上這事审编。” “怎么了歧匈？”我有些...
開封第一講書人閱讀 156,531評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵垒酬，是天一觀的道長。經(jīng)常有香客問我件炉，道長勘究，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,309評論 1贊 282
?港島之戀（遺憾婚禮）
正文為了忘掉前任斟冕，我火速辦了婚禮口糕，結果婚禮上，老公的妹妹穿的比我還像新娘磕蛇。我一直安慰自己景描，他們只是感情好，可當我...
茶點故事閱讀 65,381評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布孤里。她就那樣靜靜地躺著伏伯，像睡著了一般。火紅的嫁衣襯著肌膚如雪捌袜。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,730評論 1贊 289
城市分裂傳說
那天炸枣，我揣著相機與錄音虏等，去河邊找鬼。笑死适肠，一個胖子當著我的面吹牛霍衫，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播侯养，決...
沈念sama閱讀 38,882評論 3贊 404
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼敦跌，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起柠傍，我...
開封第一講書人閱讀 37,643評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤麸俘，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后惧笛，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體从媚，經(jīng)...
沈念sama閱讀 44,095評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,448評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年患整，在試婚紗的時候發(fā)現(xiàn)自己被綠了拜效。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,566評論 1贊 339
活死人
序言：一個原本活蹦亂跳的男人離奇死亡各谚，死狀恐怖紧憾，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情昌渤，我是刑警寧澤赴穗，帶...
沈念sama閱讀 34,253評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站愈涩，受9級特大地震影響望抽，放射性物質發(fā)生泄漏。R本人自食惡果不足惜履婉，卻給世界環(huán)境...
茶點故事閱讀 39,829評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一煤篙、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧毁腿，春花似錦辑奈、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,715評論 0贊 21
一樁弒父案鸠窗，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至胯究，卻和暖如春稍计，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背裕循。一陣腳步聲響...
開封第一講書人閱讀 31,945評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工臣嚣，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人剥哑。一個月前我還...
沈念sama閱讀 46,248評論 2贊 360
代替公主和親
正文我出身青樓硅则，卻偏偏與公主長得像，于是被迫代替她去往敵國和親株婴。傳聞我的和親對象是個殘疾皇子怎虫，可洞房花燭夜當晚...
茶點故事閱讀 43,440評論 2贊 348

Python網(wǎng)絡爬蟲與信息提取（一）

推薦閱讀更多精彩內(nèi)容