基本流程
a. 發(fā)送請求
使用http庫向目標站點發(fā)起請求,即發(fā)送一個Request,Request包含:請求頭脊岳、請求體等纵揍。?
Request模塊缺陷:不能執(zhí)行JS 和CSS 代碼顿乒。
b. 獲取響應內(nèi)容
如果requests的內(nèi)容存在于目標服務器上,那么服務器會返回請求內(nèi)容泽谨。
Response包含:html璧榄、Json字符串、圖片吧雹,視頻等骨杂。
c. 解析內(nèi)容
對用戶而言,就是尋找自己需要的信息雄卷。對于Python爬蟲而言搓蚪,就是利用正則表達式或者其他庫提取目標信息。
解析html數(shù)據(jù):正則表達式(RE模塊)丁鹉,第三方解析庫如Beautifulsoup妒潭,pyquery等
解析json數(shù)據(jù):json模塊
解析二進制數(shù)據(jù):以wb的方式寫入文件
d. 保存數(shù)據(jù)
解析得到的數(shù)據(jù)可以多種形式,如文本揣钦,音頻雳灾,視頻保存在本地。
數(shù)據(jù)庫(MySQL冯凹,Mongdb谎亩、Redis)
文件