爬蟲基礎04

Fiddler抓包工具設置

1 設置Fiddler軟件
https: Tools - options - HTTPS - ...from browsers only
Actions 添加證書信任
connections: 設置端口號 8888
重啟Fiddler軟件

2.設置Chrome瀏覽器
安裝代理切換插件: Proxy SwitchOmega
選項 - 新建情景模式 - HTTP 127.0.0.1 8888 - 應用情景模式
把代理切換到自己新建的情景模式上

3.Fiddler常用菜單
Inspector : 查看數(shù)據(jù)包詳細內(nèi)容,分為 請求(request) 和 響應(response) 兩部分

常用子選項卡
Headers : 顯示請求頭信息
WebForms: 顯示POST數(shù)據(jù),在body中
Raw: 將整個請求顯示為純文本

lxml模塊

  • 使用流程
    1 from lxml import etree
    2 parseHtml = etree.HTML(html)
    3 rList = parseHtml.xpath('')
    json模塊
    1 json.loads() : join->python
    2 json.dumps() : python->json
Ajax動態(tài)加載

1 抓包工具: WebForms->QuerySting
2 parmas = {QuerySting一堆查詢參數(shù)}
3 URL地址 : 抓包工具Raw下的GET地址


強大網(wǎng)絡爬蟲組合 selenium+phantomjs / chromedriver

selenium
  • Web自動化測試工具,應用于Web自動化測試
  • 特點
    1 可以運行在瀏覽器戏羽,根據(jù)指定命令操作瀏覽器,讓瀏覽器自動加載頁面
    2 只是工具谴餐,需要與第三方瀏覽器組合使用
    3 安裝
    conda install selenium
phantomjs(無界面瀏覽器(無頭瀏覽器))
  • 特點
    1 把網(wǎng)站加載到內(nèi)存進行頁面加載
    2 運行高效
  • Windows安裝
    把下載的exe文件拷貝到python安裝目錄的Script目錄下
    查找python程序在哪里 cmd命令where python
    查看是否裝好 phantomjs -v
  • ubuntu系統(tǒng)下的安裝
    1 下載安裝包并解壓: phantomjs-2.1.1-...
    2 cd到解壓路徑的 bin 目錄下
    3 把文件拷貝到 /usr/bin/ 目錄下彤敛,命令: sudo cp phantomjs /usr/bin/
    4 終端輸入: phantomjs -v
chromedriver
  • 安裝
    安裝網(wǎng)址
    1 查看Chrome瀏覽器版本
    2 拷貝chromedriver.exe到Scripts目錄下
    3 chromedriver -v
示例代碼

打開百度并獲取頁面截圖

from selenium import webdriver
import time
# 先創(chuàng)建
driver = webdriver.PhantomJS()

# 打開百度
driver.get('http://www.baidu.com/')

# 找到搜索框掠抬,發(fā)送文字
key = input('請輸入要搜索的內(nèi)容:')
driver.find_element_by_id('kw').send_keys(key)

# 找到 百度一下的按鈕,點擊一下
driver.find_element_by_id('su').click()

# 等待加載一下
time.sleep(1)

# 截圖
driver.save_screenshot(key+'.png')

# 關(guān)閉瀏覽器
driver.quit()
瀏覽器(driver)對象的方法
  • driver.get(url): 發(fā)請求聘鳞,獲取響應
  • driver.page_source: 獲取html源碼
  • driver.page_source.find('字符串')
    查找失敗: -1
  • 單元素查找(節(jié)點對象要拂,只找第一個抠璃,找到就直接返回)
    1 driver.find_element_by_id('')
    2 driver.find_element_by_name('')
    3 driver.find_element_by_class_name('')
    4 driver.find_element_by_xpath('')
  • 多元素查找(返回值是一個列表,列表中是一個一個的節(jié)點對象)
    driver.find_elements_by_...()
    返回值: 列表
    利用節(jié)點對象的 text 屬性可獲取文本內(nèi)容
  • 節(jié)點對象.send_keys('要發(fā)送的內(nèi)容')
  • 節(jié)點對象.click()
  • 執(zhí)行腳本,進度條拉到最底部
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
  • 如何設置chrome為無界面瀏覽器
opt = webdriver.ChromeOptions()
opt.set_headless()
# 設置截圖時候的圖片大小
opt.add_argument('windows-size=1920x3000')
# 創(chuàng)建瀏覽器對象
driver = webdriver.Chrome(options=opt)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末脱惰,一起剝皮案震驚了整個濱河市搏嗡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拉一,老刑警劉巖采盒,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蔚润,居然都是意外死亡磅氨,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門嫡纠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來烦租,“玉大人延赌,你說我怎么就攤上這事〔娉鳎” “怎么了挫以?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長赏迟。 經(jīng)常有香客問我屡贺,道長,這世上最難降的妖魔是什么锌杀? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任甩栈,我火速辦了婚禮,結(jié)果婚禮上糕再,老公的妹妹穿的比我還像新娘量没。我一直安慰自己,他們只是感情好突想,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布殴蹄。 她就那樣靜靜地躺著,像睡著了一般猾担。 火紅的嫁衣襯著肌膚如雪袭灯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天绑嘹,我揣著相機與錄音稽荧,去河邊找鬼。 笑死工腋,一個胖子當著我的面吹牛姨丈,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播擅腰,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蟋恬,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了趁冈?” 一聲冷哼從身側(cè)響起歼争,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎渗勘,沒想到半個月后沐绒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡呀邢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年洒沦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片价淌。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡申眼,死狀恐怖瞒津,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情括尸,我是刑警寧澤巷蚪,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站濒翻,受9級特大地震影響屁柏,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜有送,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一淌喻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧雀摘,春花似錦裸删、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至清蚀,卻和暖如春匕荸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背枷邪。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工榛搔, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人齿风。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓药薯,卻偏偏與公主長得像绑洛,于是被迫代替她去往敵國和親救斑。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容