Python爬蟲學習1
1蝶糯、簡單制作爬蟲小程序
爬取百度首頁源代碼:
import urllib.request
url = "http://www.baidu.com"
page_info = urllib.request.urlopen(url).read()
page_info = page_info.decode('utf-8')
print(page_info)
urllib是一個非常重要的一個模塊 心肪,可以非常方便的模擬瀏覽器訪問互聯(lián)網,對于python 3 爬蟲來說, urllib更是一個必不可少的模塊,它可以幫助我們方便地處理URL.
urllib.request是urllib的一個子模塊,可以打開和處理一些復雜的網址
urllib.request.urlopen()方法實現(xiàn)了打開url,并返回一個 http.client.
HTTPResponse對象,通過http.client.HTTPResponse的read()方法,獲得response body,轉碼最后通過print()打印出來.