網絡爬蟲介紹與作用
是一種按照一定的規(guī)則,自動的抓取萬維網信息的程序或者腳本团搞。包括數據請求严望、處理、存儲三個方面逻恐。
爬蟲的作用:獲取想要的信息像吻,比如圖片峻黍、數據、視頻等等拨匆。只要你能通過瀏覽器訪問的信息都可以通過爬蟲獲取姆涩。
工欲善其事,必先利其器
windows安裝python2.7的方式有兩種:
1)通過anaconda2.0安裝
2)直接下載python2.7或者其它版本安裝包進行安裝
Requests請求庫
通過pip install requests進行安裝惭每。一般用requests來對URL進行請求并接受返回的結果骨饿。
BeautifulSoup4解析庫
通過pip install beautifulsoup4進行安裝 ,利用bs4對返回的結果進行解析台腥,獲取想要爬取的目標數據宏赘。
查看電腦上安裝的所有模塊:win+R,輸入cmd,輸入python -m pip list顯示所有的python模塊览爵,如圖一:
HTTP常用的兩種請求方法get和post
例如:url = "https://www.baidu.com"
? ? ? ? ? ?response =? requests.get(url,headers = headers)
get請求方法置鼻,在客戶端不發(fā)送數據
post請求方法,在客戶端發(fā)送數據蜓竹,比如登錄知乎時箕母,需要輸入用戶名和密碼.
查看一個URL網址的請求方法,可以通過右擊網頁---審查元素/檢查-----Network----刷新網頁----name下第一個URL----Headers進行查看俱济。不同的瀏覽器查看方法會有一些差異嘶是。
User-Agent(用戶代理)
訪問url網址時,http請求的頭文件里都會包含一個User-Agent蛛碌,它是一個特殊字符頭聂喇,使服務器能夠識別客戶使用的操作系統(tǒng)及版本、瀏覽器及版本蔚携、瀏覽器語言及插件等信息希太。通過偽裝用戶代理標識,讓爬蟲檢查機器當你的爬蟲當成一個瀏覽器訪問網頁的人酝蜒,達到可以通行的目的誊辉。例如:
User-Agent:Mozilla/5.0 (Windows NT 6.1;WOW64)?
AppleWebKit/537.36 (KHTML, like Gecko)?
Chrome/63.0.3239.132Safari/537.36
在圖二查看Request Method方法時,user_agent的標識在response headers部分標識亡脑。如圖:
以上是爬蟲相關概念的說明堕澄。