爬蟲

總結爬蟲流程：爬取--->解析--->存儲
什么是爬蟲拾徙？請求網(wǎng)站并提取數(shù)據(jù)的自動化程序就叫做爬蟲哑芹。
爬蟲的主要目的？是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地形成一個互聯(lián)網(wǎng)內容的鏡像備份疯溺。
爬蟲的基本流程瞳腌？
1.用戶獲取網(wǎng)絡數(shù)據(jù)的方式：
1：瀏覽器提交請求--->下載網(wǎng)頁代碼--->解析成頁面
2：模擬瀏覽器發(fā)送請求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中
爬蟲要做的就是方式2绞铃；
發(fā)起請求
使用http庫向目標站點發(fā)起請求，即發(fā)送一個Request
Request包含：請求頭嫂侍、請求體等
Request模塊缺陷：不能執(zhí)行JS 和CSS 代碼
2儿捧、獲取響應內容
如果服務器能正常響應，則會得到一個Response
Response包含：html吵冒，json，圖片西剥，視頻等
3痹栖、解析內容
解析html數(shù)據(jù)：正則表達式（RE模塊），第三方解析庫如Beautifulsoup瞭空，pyquery等
解析json數(shù)據(jù)：json模塊
解析二進制數(shù)據(jù):以wb的方式寫入文件
4揪阿、保存數(shù)據(jù)
數(shù)據(jù)庫（MySQL，Mongdb咆畏、Redis）
文件
Request：用戶將自己的信息通過瀏覽器（socket client）發(fā)送給服務器（socket server）
Response：服務器接收請求南捂，分析用戶發(fā)來的請求信息，然后返回數(shù)據(jù)（返回的數(shù)據(jù)中可能包含其他鏈接旧找，如：圖片溺健，js，css等）

request
1钮蛛、請求方式：常見的請求方式：GET / POST

2鞭缭、請求的URL
url全球統(tǒng)一資源定位符，用來定義互聯(lián)網(wǎng)上一個唯一的資源例如：一張圖片魏颓、一個文件岭辣、一段視頻都可以用url唯一確定
url編碼
3、請求頭
User-agent：請求頭中如果沒有user-agent客戶端配置甸饱，服務端可能將你當做一個非法用戶host沦童；
cookies：cookie用來保存登錄信息
一般做爬蟲都會加上請求頭,模擬用戶請求
請求頭需要注意的參數(shù)：
1.Referrer：訪問源至哪里來（一些大型網(wǎng)站，會通過Referrer 做防盜鏈策略叹话；所有爬蟲也要注意模擬）

User-Agent:訪問的瀏覽器（要加上否則會被當成爬蟲程序）
cookie：請求頭注意攜帶
xpath
動態(tài)加載：使用json串轉換
靜態(tài)頁面：使用正則偷遗，ｘｐａｔｈ..
結構化數(shù)據(jù)：先有結構，在有數(shù)據(jù)　json path
非結構化數(shù)據(jù)：先有數(shù)據(jù)驼壶，再有結構正則鹦肿，xpath

什么是xpath：是一門在 XML 文檔中查找信息的語言，可用來在 XML 文檔中對元素和屬性進行遍歷辅柴。
什么是xml:是傳輸數(shù)據(jù)而并非顯示數(shù)據(jù)
xpath 語法的目的箩溃，找到節(jié)點瞭吃，提取信息
xpath 語法
使用xpath　語法提取數(shù)據(jù)
什么是xpath：是一門在 XML 文檔中提取信息數(shù)據(jù)的語言，可以用來在xml文檔中對元素（標簽）的屬性進行遍歷
xml:是一個可擴展的標記語言涣旨，語法和ｈｔｍｌ相像歪架，里面的節(jié)點可以自己定義，被設計的目的用來進行數(shù)據(jù)的傳輸和保存
安裝lxml pip3 install lxml

以起點中文網(wǎng)為例

notename:節(jié)點：查找出html中標簽名為notname的節(jié)點
/ 表示從根節(jié)點的地方開始查找霹陡，(相對性的)
// 表示從任意位置匹配出你想要的節(jié)點
. 表示選取當前節(jié)點
..　表示選取當前節(jié)點的父節(jié)點
@ 表示選擇屬性
text() 表示取標簽文本內容
notename[1]:表示標簽名為的一個的節(jié)點
notename[last()]:表示取最后一個
notename[last()-1]:表示取倒數(shù)第二個

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末和蚪，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子烹棉，更是在濱河造成了極大的恐慌攒霹，老刑警劉巖，帶你破解...
沈念sama閱讀 206,723評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件浆洗，死亡現(xiàn)場離奇詭異催束，居然都是意外死亡，警方通過查閱死者的電腦和手機伏社，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,485評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門抠刺，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人摘昌，你說我怎么就攤上這事速妖。” “怎么了聪黎？”我有些...
開封第一講書人閱讀 152,998評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵罕容，是天一觀的道長。經(jīng)常有香客問我稿饰，道長杀赢，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,323評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任湘纵，我火速辦了婚禮脂崔，結果婚禮上，老公的妹妹穿的比我還像新娘梧喷。我一直安慰自己砌左，他們只是感情好，可當我...
茶點故事閱讀 64,355評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布铺敌。她就那樣靜靜地躺著汇歹，像睡著了一般。火紅的嫁衣襯著肌膚如雪偿凭。梳的紋絲不亂的頭發(fā)上产弹，一...
開封第一講書人閱讀 49,079評論 1贊 285
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼痰哨。笑死胶果，一個胖子當著我的面吹牛，可吹牛的內容都是我干的斤斧。我是一名探鬼主播早抠，決...
沈念sama閱讀 38,389評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼撬讽！你這毒婦竟也來了蕊连？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 37,019評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤游昼，失蹤者是張志新（化名）和其女友劉穎甘苍，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體烘豌，經(jīng)...
沈念sama閱讀 43,519評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡载庭，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,971評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了扇谣。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昧捷。...
茶點故事閱讀 38,100評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡闲昭，死狀恐怖罐寨，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情序矩，我是刑警寧澤鸯绿，帶...
沈念sama閱讀 33,738評論 4贊 324
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站簸淀，受9級特大地震影響瓶蝴，放射性物質發(fā)生泄漏。R本人自食惡果不足惜租幕，卻給世界環(huán)境...
茶點故事閱讀 39,293評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一舷手、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧劲绪，春花似錦男窟、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,289評論 0贊 19
一樁弒父案歉眷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至颤枪，卻和暖如春汗捡，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背畏纲。一陣腳步聲響...
開封第一講書人閱讀 31,517評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工扇住，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留春缕，地道東北人睛低。一個月前我還...
沈念sama閱讀 45,547評論 2贊 354
代替公主和親
正文我出身青樓膀斋，卻偏偏與公主長得像，于是被迫代替她去往敵國和親拒逮。傳聞我的和親對象是個殘疾皇子簿训，可洞房花燭夜當晚...
茶點故事閱讀 42,834評論 2贊 345

爬蟲

推薦閱讀更多精彩內容