概要
本文集詳解網(wǎng)絡(luò)爬蟲的原理痕貌、工具、框架和方法糠排。
詳解從簡(jiǎn)單網(wǎng)頁到異步加載網(wǎng)頁舵稠,從簡(jiǎn)單存儲(chǔ)到數(shù)據(jù)庫存儲(chǔ),從簡(jiǎn)單爬蟲到框架爬蟲等技術(shù)乳讥。
類別:
- 22個(gè)網(wǎng)絡(luò)爬蟲綜合實(shí)戰(zhàn)案例柱查、30個(gè)網(wǎng)站信息提取
- 詳解爬蟲的3大方法:
正則表達(dá)式
、BeautifulSoup 4庫
和Lxml庫
- 詳解爬取數(shù)據(jù)的4大存儲(chǔ)方式:
TXT
云石、CSV
唉工、MongoDB
和MySQL
- 詳解Scrapy爬蟲框架的安裝、項(xiàng)目創(chuàng)建汹忠、文件使用及爬取數(shù)據(jù)的存儲(chǔ)
引子
隨著Internet的飛速發(fā)展淋硝,互聯(lián)網(wǎng)中每天都會(huì)產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)
。如何從這些非結(jié)構(gòu)化數(shù)據(jù)中提取有效信息宽菜,供人們?cè)趯W(xué)習(xí)和工作中使用呢谣膳?這個(gè)問題促使網(wǎng)絡(luò)爬蟲技術(shù)應(yīng)運(yùn)而生。
由于Python語言簡(jiǎn)單易用铅乡,而且還提供了優(yōu)秀易用的第三方庫和多樣的爬蟲框架继谚,所以使得它成為了網(wǎng)絡(luò)爬蟲技術(shù)的主力軍。
近年來阵幸,大數(shù)據(jù)技術(shù)發(fā)展迅速花履,數(shù)據(jù)爬取作為數(shù)據(jù)分析的一環(huán)也顯得尤為重要。程序員要進(jìn)入與數(shù)據(jù)處理挚赊、分析和挖掘等相關(guān)的行業(yè)诡壁,就必須要掌握Python語言及其網(wǎng)絡(luò)爬蟲的運(yùn)用。
目錄
本章介紹了Python和PyCharm的安裝及Python最為簡(jiǎn)單的語法基礎(chǔ)荠割,包括簡(jiǎn)單的流程控制妹卿、數(shù)據(jù)結(jié)構(gòu)、文件操作和面向?qū)ο蟮木幊趟枷搿?/p>
本章通過介紹網(wǎng)絡(luò)連接原理,進(jìn)而介紹了爬蟲的原理夺克,講解了爬蟲的基本流程箕宙,另外還介紹了如何使用Chrome瀏覽器認(rèn)識(shí)網(wǎng)頁構(gòu)造和查詢網(wǎng)頁信息。
本章主要介紹了安裝請(qǐng)求和解析網(wǎng)頁的Python第三方庫铺纽、Requests庫和BeautifulSoup庫的使用方法扒吁,最后通過綜合案例手把手教會(huì)讀者編寫一個(gè)簡(jiǎn)單的爬蟲程序。
本章主要介紹了正則表達(dá)式的常用符號(hào)及Python中re模塊的使用方法室囊,在不需要解析庫的情況下完成一個(gè)簡(jiǎn)單的爬蟲程序。
本章主要介紹了Lxml庫在Mac和Linux環(huán)境中的安裝方法魁索、Lxml庫的使用方法及Xpath語法知識(shí)融撞,并且通過案例對(duì)正則表達(dá)式、BeautifulSoup和Lxml進(jìn)行了性能對(duì)比粗蔚,最后通過綜合案例鞏固Xpath語言的相關(guān)知識(shí)
本章主要介紹了API的使用和調(diào)用方法尝偎,對(duì)API返回的JSON數(shù)據(jù)進(jìn)行解析,最后通過使用API完成一些有趣的綜合案例鹏控。
本章主要介紹了非關(guān)系型數(shù)據(jù)庫MongoDB和關(guān)系型數(shù)據(jù)庫MySQL的相關(guān)知識(shí)致扯,并通過綜合案例展示了Python對(duì)兩種數(shù)據(jù)庫的存儲(chǔ)方法。
本章主要介紹了多線程及其概念当辐,并通過案例對(duì)串行爬蟲和多進(jìn)程爬蟲的性能進(jìn)行了對(duì)比抖僵,最后通過綜合案例介紹了多進(jìn)程爬取數(shù)據(jù)的方法和技巧。
本章主要介紹了異步加載的基本概念缘揪,以及如何針對(duì)異步加載網(wǎng)頁使用逆向工程抓取數(shù)據(jù)耍群,最后通過綜合案例講解了逆向工程的使用方法和常用技巧。
本章主要介紹了Requests庫的POST方法找筝,通過觀測(cè)表單源代碼和逆向工程來填寫表單以獲取網(wǎng)頁信息蹈垢,以及通過提交cookie信息來模擬登錄網(wǎng)站。
本章主要介紹了Selenium的模塊的安裝袖裕、Selenium瀏覽器的選擇和安裝曹抬,以及Selenium模塊的使用方法,最后通過綜合案例介紹了如何對(duì)采用異步加載技術(shù)的網(wǎng)頁進(jìn)行爬蟲急鳄。
第 12 章 Scrapy爬蟲框架
本章主要介紹了Windows 7環(huán)境中的Scrapy安裝和創(chuàng)建爬蟲項(xiàng)目的過程谤民,并通過案例詳細(xì)講解了各個(gè)Scrapy文件的作用和使用方法,而且通過多個(gè)綜合案例講解了如何通過Scrapy爬蟲框架把數(shù)據(jù)存儲(chǔ)到不同類型的文件中攒岛,最后講解了如何編寫跨頁面網(wǎng)站的爬蟲代碼赖临。