Requests模塊
在學習爬蟲之前履磨,我們先來了解http定義的與服務器交互的幾種方法:
get 僅僅獲取資源的信息,不增加或者修改數(shù)據(jù)巷送。
post 一般丟該服務器上的資源综苔,一般我們通過form表單進行提交請求
put 增加
delete 刪除
import requests
requests.get("http://www.baidu.com")
requests.post("http://www.jd.com")
requests.put("http://www.jd.com")
requests.delete("http://www.jd.com")
傳遞參數(shù):
post方式:
params = {'key1': 'hello', 'key2': 'world'}
r = requests.post("http://httpbin.org/post", data=params)
print(r.text)
http://httpbin.org/post是requests提供的官網(wǎng)地址位岔,通過json的方式給大家返回⊙钆伲可以看到我們返回的數(shù)據(jù)擦剑。Post的數(shù)據(jù)參數(shù)是data,都是字典的類型赚抡,但是urllib就沒法接受字典類型,必須是字符串.
結(jié)果:
{
"args": {},
"data": "",
"files": {},
"form": {
"key1": "hello",
"key2": "world"
},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Connection": "close",
"Content-Length": "21",
"Content-Type": "application/x-www-form-urlencoded",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.18.4"
},
"json": null,
"origin": "1.202.119.5",
"url": "http://httpbin.org/post"
}
響應http的請求
url = 'https://www.qiushibaike.com/'
r = requests.get(url=url)
print(r.text)
print(r.encoding) 查看編碼
print(type(r.text)) <class 'str'>
print(type(r.content)) <class 'bytes'>
Requests中text和content的區(qū)別是什么
r.text返回的是str類型的數(shù)據(jù)涂臣。
r.content返回的是bytes型也就是二進制的數(shù)據(jù)售担。
也就是說,如果你想取文本族铆,可以通過r.text哥攘。
如果想取圖片,文件逝淹,則可以通過r.content。
Request的其他常用方法:
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36'}
r = requests.get('https://www.qiushibaike.com/', headers=header)
print(r.text) 文本
print(r.request) #<PreparedRequest [GET]>
print(r.headers)
#{'Server': 'nginx', 'Date': 'Sun, 14 Jan 2018 12:37:48 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Content-Length': '17011', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Set-Cookie': '_xsrf=2|5f47375e|e7eb37220e28518c03d1ea75a2c374e7|1515936871; Path=/', 'Vary': 'User-Agent, Accept-Encoding', 'Etag': '"d0c332a18dc290c35570931f9d699ef756db2450"'}
print(r.cookies) #cookies的信息
print(r.cookies[‘_xsrf’]) #可以通過字典的方式取值
print(r.url) #請求的url是多少
print(r.status_code) #http的狀態(tài)返回碼
Request更改請求頭信息:
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36'}
r = requests.get('https://www.qiushibaike.com/', headers=header)
print(r.text)
print(r.headers)
可以通過定義一個list,然后通過random模塊隨機取一個header信息進行訪問妥畏,防止飯爬蟲的操作。
Request的會話對象
s = requests.session()
Python2
S = requests.Session()
所有一次會話的信息都保存在s中燃辖,只需要對s進行操作就可以了。
s.get(url)
Requests通過會話信息來獲取cookie信息
Cookie的五要素:
Name value domain path expires
import requests
def save_cookie():
s = requests.session()
s.get('https://www.hao123.com/')
print(s.cookies) import requests???def save_cookie():? s = requests.session()? s.get('https://www.hao123.com/')? print(s.cookies)? print(s.cookies.keys())? print(s.cookies.values())? for i in s.cookies:? print(i)? print(i.name, i.value, i.domain, i.path, i.expires)?if __name__ == '__main__':? save_cookie()
print(s.cookies.keys())
print(s.cookies.values())
for i in s.cookies:
print(i)
print(i.name, i.value, i.domain, i.path, i.expires)
if __name__ == '__main__':
save_cookie()
使用已知cookie信息妇智,如何訪問網(wǎng)站:
url = 'http://httpbin.org/cookies'
r = requests.get(url, cookies={'key1': 'value1', 'key2': 'value2'})
print(r.text)
結(jié)果:
{
"cookies": {
"key1": "value1",
"key2": "value2"
}
}
代理訪問:
采集時為避免被封IP巍棱,經(jīng)常會使用代理蛋欣。requests也有相應的proxies屬性。
西刺代理
import requests
proxies = {
"http": "http://182.108.5.246:8118",
# "https": "http://112.117.184.219:9999",
}
r1 = requests.get("http://2017.ip138.com/ic.asp", proxies=proxies)
r2 = requests.get("http://2017.ip138.com/ic.asp")
print(r1.text)
print(r2.text)
[182.108.5.246]
[106.38.115.34]
如果代理需要賬戶和密碼到踏,則需這樣:
proxies = {
"http": "http://user:pass@10.10.1.10:3128/",
}
requests的中文亂碼問題:
import requests
param = {"key1": "hello", "key2": "world"}
url = 'https://www.baidu.com/'
r = requests.get(url=url)
print(r.encoding) #ISO-8859-1默認使用的是這個
r.encoding = "utf-8"
print(r.text)
這樣就可以正常顯示了
webdriver模塊
Selenium是ThroughtWorks公司開發(fā)的一套Web自動化測試工具尚猿。
它分為三個組件:
Selenium IDE
Selenium RC (Remote Control)
Selenium Webdriver
Selenium IDE是firefox的一個插件,允許測試人員錄制腳本并回放讹躯。
Selenium RC和Selenium Webdriver是測試框架缠劝,提供多種語言的API。不同的是秉馏,Selenium Webdriver以一種更底層脱羡、更靈活的方式來操作瀏覽器,并不僅僅使用JavaScript锉罐。這樣它可以繞開瀏覽器的沙箱限制脓规,實現(xiàn)Selenium RC不支持的框架、彈出窗口、頁面導航绢陌、下拉菜單熔恢、基于AJAX的UI元素等控件的操作。以及秤掌,Selenium Webdriver不需要本地服務器鹰霍。
Selenium 1.x版本只包含前兩個組件。從2.0開始Webdriver加入其中椒拗。
主要是來解決https的加密問題
Webdriver在使用之前获黔,不需要下載一個瀏覽器所對應用的驅(qū)動插件在验,請根據(jù)自己不同的瀏覽器版本,進行下載:
Google的我推薦給大家一個百度地址:
鏈接:https://pan.baidu.com/s/1qZ2LfmW 密碼:qixa
下載以后盏触,并把chromdriver放在google.exe那個當前目錄下面
import os
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
os.environ["webdriver.chrome.driver"] = chromedriver
driver = webdriver.Chrome(chromedriver)
driver.get("http://www.python.org")
driver.quit()
八種選擇器:
1. find_elements_by_name(“test”)
頁面:
<input type="text" name="passwd" id="passwd-id" class=”input-class”/>
代碼:
element = driver.find_elements_by_name(“passwd”)
2. find_elements_by_id()
element = driver.find_element_by_id(“passwd-id”)
By.tagname()
element = driver.find_element_by_tagname(“input”)
3. find_element_by_class_name(‘input-class’)
4. find_elements_by_tag_name(‘iframe’)
DOM的Tag元素
用Tag name 定位元素的例子:
<iframe src="..."></iframe>
element = driver.find_elements_by_tag_name("iframe")
5. find_element_by_link_text()
頁面:
<a >baidu</a>
代碼:
element = browser.find_elements_by_link_text("baidu")
6 xpath 這個特別強大赞辩,所有的元素都可以通過這個可以找到授艰。
XPath是XML Path的簡稱,由于HTML文檔本身就是一個標準的XML頁面淮腾,所以我們可以使用XPath的語法來定位頁面元素谷朝。
絕對路徑: 根元素開始,及html開始用/
相對路勁: 任意符合條件的元素 //
查找頁面上所有的input元素:
//input
查找頁面上第一個form元素內(nèi)的直接子input元素(即只包括form元素的下一級input元素圆凰,使用絕對路徑表示,單/號):
//form[1]/input
查找頁面上第一個form元素內(nèi)的所有子input元素(只要在form元素內(nèi)的input都算娘荡,不管還嵌套了多少個其他標簽,使用相對路徑表示争群,雙//號):
//form[1]//input
查找頁面上第一個form元素:
//form[1]
查找頁面上id為loginForm的form元素:
//form[@id='loginForm']
查找頁面上具有name屬性為username的input元素:
//input[@name='username']
查找頁面上id為loginForm的form元素下的第一個input元素:
//form[@id='loginForm']/input[1]
查找頁面具有name屬性為contiune并且type屬性為button的input元素:
//input[@name='continue'][@type='button']
查找頁面上id為loginForm的form元素下第4個input元素:
//form[@id='loginForm']/input[4]
控件操作:
輸入框大年;
element.clear() 清空輸入框數(shù)據(jù)
element.sendkeys(“username”) 發(fā)送數(shù)據(jù)
element.text 獲取文本的值
按鈕:
element.click()
表單提交
element.submit()
單選和多選框
element.clear()
element = browser.find_elements_by_id(' checkbox')
選擇某個單選項:
element.click();
常用方法:
browser.get_cookies()
browser.title 頭名字
browser.close()
forward()
前進翔试,browser.foeward()
.back()
后退,browser.back()
.refresh()
刷新冲泥,browser.refresh()
.current_url
返回當前頁面url壁涎,browser.current_url
登錄12306:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from selenium import webdriver
import random
import time
def randomSleep(minS, maxS):
time.sleep((maxS - minS) * random.random() + minS)
browser = webdriver.Chrome(r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
url = "https://kyfw.12306.cn/otn/login/init"
browser.get(url=url)
print(browser.find_element_by_id("username").text)
browser.find_element_by_id("username").clear()
browser.find_element_by_id("username").send_keys("974644081@qq.com")
randomSleep(2, 5)
browser.find_element_by_id("password").send_keys(“xxxxxxxxx")
randomSleep(1, 4)
time.sleep(6)
browser.find_element_by_id("loginSub").click()
randomSleep(2, 5)
print(browser.get_cookies())
browser.quit()
登錄京東:
from selenium import webdriver
import random
import time
def randomSleep(minS, maxS):
time.sleep((maxS - minS) * random.random() + minS)
browser = webdriver.Chrome(r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
# browser = webdriver.Chrome()
# Home
browser.get("https://passport.jd.com/new/login.aspx")
# Login by username and password
randomSleep(1, 2)
browser.find_element_by_xpath("http://a[@clstag='pageclick|keycount|201607144|2']").click()
# browser.find_element_by_tag_name("pageclick|keycount|201607144|2").click()
# Username and password
randomSleep(1, 2)
browser.find_element_by_id("loginname").send_keys(“xxxxxxx")
print(browser.find_element_by_id("loginname").text)
randomSleep(1, 3)
browser.find_element_by_id("nloginpwd").send_keys(“xxxxxx")
# Submit, wait for a long time
randomSleep(5, 10)
browser.find_element_by_id("loginsubmit").click()
print(browser.get_cookies())
randomSleep(3, 5)
browser.quit()