爬蟲

總結爬蟲流程:爬取--->解析--->存儲
什么是爬蟲拾徙?請求網(wǎng)站并提取數(shù)據(jù)的自動化程序就叫做爬蟲哑芹。
爬蟲的主要目的?是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地形成一個互聯(lián)網(wǎng)內容的鏡像備份疯溺。
爬蟲的基本流程瞳腌?
1.用戶獲取網(wǎng)絡數(shù)據(jù)的方式:
1:瀏覽器提交請求--->下載網(wǎng)頁代碼--->解析成頁面
2:模擬瀏覽器發(fā)送請求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中
爬蟲要做的就是方式2绞铃;
發(fā)起請求
使用http庫向目標站點發(fā)起請求,即發(fā)送一個Request
Request包含:請求頭嫂侍、請求體等
Request模塊缺陷:不能執(zhí)行JS 和CSS 代碼
2儿捧、獲取響應內容
如果服務器能正常響應,則會得到一個Response
Response包含:html吵冒,json,圖片西剥,視頻等
3痹栖、解析內容
解析html數(shù)據(jù):正則表達式(RE模塊),第三方解析庫如Beautifulsoup瞭空,pyquery等
解析json數(shù)據(jù):json模塊
解析二進制數(shù)據(jù):以wb的方式寫入文件
4揪阿、保存數(shù)據(jù)
數(shù)據(jù)庫(MySQL,Mongdb咆畏、Redis)
文件
Request:用戶將自己的信息通過瀏覽器(socket client)發(fā)送給服務器(socket server)
Response:服務器接收請求南捂,分析用戶發(fā)來的請求信息,然后返回數(shù)據(jù)(返回的數(shù)據(jù)中可能包含其他鏈接旧找,如:圖片溺健,js,css等)

request
1钮蛛、請求方式:常見的請求方式:GET / POST

2鞭缭、請求的URL
url全球統(tǒng)一資源定位符,用來定義互聯(lián)網(wǎng)上一個唯一的資源 例如:一張圖片魏颓、一個文件岭辣、一段視頻都可以用url唯一確定
url編碼
3、請求頭
User-agent:請求頭中如果沒有user-agent客戶端配置甸饱,服務端可能將你當做一個非法用戶host沦童;
cookies:cookie用來保存登錄信息
一般做爬蟲都會加上請求頭,模擬用戶請求
請求頭需要注意的參數(shù):
1.Referrer:訪問源至哪里來(一些大型網(wǎng)站,會通過Referrer 做防盜鏈策略叹话;所有爬蟲也要注意模擬)

User-Agent:訪問的瀏覽器(要加上否則會被當成爬蟲程序)
cookie:請求頭注意攜帶
xpath
動態(tài)加載:使用json串轉換
靜態(tài)頁面:使用正則偷遗,xpath..
結構化數(shù)據(jù):先有結構,在有數(shù)據(jù) json path
非結構化數(shù)據(jù):先有數(shù)據(jù)驼壶,再有結構 正則鹦肿,xpath

什么是xpath: 是一門在 XML 文檔中查找信息的語言,可用來在 XML 文檔中對元素和屬性進行遍歷辅柴。
什么是xml:是傳輸數(shù)據(jù)而并非顯示數(shù)據(jù)
xpath 語法的目的箩溃,找到節(jié)點瞭吃,提取信息
xpath 語法
使用xpath 語法提取數(shù)據(jù)
什么是xpath: 是一門在 XML 文檔中提取信息數(shù)據(jù)的語言,可以用來在xml文檔中對元素(標簽)的屬性進行遍歷
xml:是一個可擴展的標記語言涣旨,語法和html相像歪架,里面的節(jié)點可以自己定義,被設計的目的用來進行數(shù)據(jù)的傳輸和保存
安裝lxml pip3 install lxml

以起點中文網(wǎng)為例

notename:節(jié)點:查找出html中標簽名為notname的節(jié)點
/ 表示從根節(jié)點的地方開始查找霹陡,(相對性的)
// 表示從任意位置匹配出你想要的節(jié)點
. 表示選取當前節(jié)點
.. 表示選取當前節(jié)點的父節(jié)點
@ 表示選擇屬性
text() 表示取標簽文本內容
notename[1]:表示標簽名為的一個的節(jié)點
notename[last()]:表示取最后一個
notename[last()-1]:表示取倒數(shù)第二個

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末和蚪,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子烹棉,更是在濱河造成了極大的恐慌攒霹,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浆洗,死亡現(xiàn)場離奇詭異催束,居然都是意外死亡,警方通過查閱死者的電腦和手機伏社,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門抠刺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人摘昌,你說我怎么就攤上這事速妖。” “怎么了聪黎?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵罕容,是天一觀的道長。 經(jīng)常有香客問我稿饰,道長杀赢,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任湘纵,我火速辦了婚禮脂崔,結果婚禮上,老公的妹妹穿的比我還像新娘梧喷。我一直安慰自己砌左,他們只是感情好,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布铺敌。 她就那樣靜靜地躺著汇歹,像睡著了一般。 火紅的嫁衣襯著肌膚如雪偿凭。 梳的紋絲不亂的頭發(fā)上产弹,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機與錄音,去河邊找鬼痰哨。 笑死胶果,一個胖子當著我的面吹牛,可吹牛的內容都是我干的斤斧。 我是一名探鬼主播早抠,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼撬讽!你這毒婦竟也來了蕊连?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤游昼,失蹤者是張志新(化名)和其女友劉穎甘苍,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體烘豌,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡载庭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了扇谣。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昧捷。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡闲昭,死狀恐怖罐寨,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情序矩,我是刑警寧澤鸯绿,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站簸淀,受9級特大地震影響瓶蝴,放射性物質發(fā)生泄漏。R本人自食惡果不足惜租幕,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一舷手、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧劲绪,春花似錦男窟、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至颤枪,卻和暖如春汗捡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背畏纲。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工扇住, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留春缕,地道東北人睛低。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓膀斋,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拒逮。 傳聞我的和親對象是個殘疾皇子簿训,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內容

  • 來者迷惘彷徨不可追咱娶,去者支離破碎難回首。
    良夏612閱讀 41評論 0 0
  • 總有一些時刻强品,好好過著的人生突然出現(xiàn)巨大的障礙膘侮,讓你懷疑這一切都是假的。 懷疑知識的榛,我們到底是知道知識琼了,還是只知道...
    不戒辣少女閱讀 186評論 0 0
  • 老九
    28c200351f00閱讀 122評論 0 0