1.3 真實的網(wǎng)頁解析

  • HTTP1.1中Request方法7種
    get post head put options connect trace delete

  • 真實網(wǎng)頁解析
    監(jiān)視網(wǎng)頁:Network
    刷新網(wǎng)頁:第一個文件,request和response的信息全部顯示在里面

import requests
from bs4 import BeautifulSoup
import time#插入時間
url = 'http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html'
urls = ['http://www.tripadvisor.cn/Attractions-g60763-Activities-oa{}-New_York_City_New_York.html#ATTRACTION_LIST'.format(str(i)) for i in range(30,1030,30)]
user_saves = 'http://www.tripadvisor.cn/Saves#1'
headers = {    'user-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',    'Cookie':'TAUnique=%1%enc%3AGt%2BTZhWhYRLlya%2Bb84AAmksGWRwjidrr8w%2F6Ze%2BL2cUnuvWISCXjiA%3D%3D; __gads=ID=14ede999d17f3c90:T=1461160891:S=ALNI_MZNR9_0t0Q1iGGOaY9f7Nxo_uwI4Q; bdshare_firstime=1461163798929; TAAuth2=%1%3%3A0196062bdc62174625411e900aaf8dc0%3AAAbn4kxcinEu%2FY1ZBVHGXA1vuNmknYlm2BX6q79fzLVxpkyNxzjcz03cx%2BjTj%2BnIDud%2FtrnQW1Kj08wg%2BXccFPaCh9673sKMNdESJOiei28DW8p%2F3GkBIRN8MDPdq486%2F3DicH7JxYeiHlJp03fLgXgKM6X%2FMereL6%2F7%2B%2BtKwRdsPT%2F31vFSIDei%2B%2FSSkT60CJ%2FwlSMY3sigkA%2BMWAsoex8%3D; _jzqy=1.1461160723.1461204501.2.jzqsr=baidu|jzqct=tripadvisor.jzqsr=baidu|jzqct=%E7%8C%AB%E9%80%94%E9%B9%B0%E7%BD%91; taMobileRV=%1%%7B%2210021%22%3A%5B1951181%5D%2C%2210028%22%3A%5B60763%5D%7D; ServerPool=A; TASSK=enc%3Ahwdy10o2uWvTDzq0MQZXeA5tD6r7MOpWpPLWsEVezsyeBefYE30WLhybhKPN4yl9; TAPD=tripadvisor.cn; _smt_uid=57178b12.4d58ed6c; _jzqckmp=1; TATravelInfo=V2*A.2*MG.-1*HP.2*FL.3*RVL.60763_153l1687489_153*RS.1; CM=%1%HanaPersist%2C%2C-1%7Ct4b-pc%2C%2C-1%7CHanaSession%2C%2C-1%7CFtrSess%2C%2C-1%7CRCPers%2C%2C-1%7CHomeAPers%2C%2C-1%7CWShadeSeen%2C%2C-1%7CRCSess%2C%2C-1%7CFtrPers%2C%2C-1%7CHomeASess%2C4%2C-1%7Csh%2C%2C-1%7CLastPopunderId%2C137-1859-null%2C-1%7Cpssamex%2C%2C-1%7C2016sticksess%2C%2C-1%7CCCPers%2C%2C-1%7CCpmPopunder_1%2C1%2C1464913708%7CCCSess%2C%2C-1%7CCpmPopunder_2%2C5%2C-1%7CWAR_RESTAURANT_FOOTER_SESSION%2C%2C-1%7Cb2bmcsess%2C%2C-1%7Csesssticker%2C%2C-1%7C%24%2C%2C-1%7C2016stickpers%2C%2C-1%7Ct4b-sc%2C%2C-1%7CMC_IB_UPSELL_IB_LOGOS2%2C%2C-1%7Cb2bmcpers%2C%2C-1%7CMC_IB_UPSELL_IB_LOGOS%2C%2C-1%7Csess_rev%2C11%2C-1%7Csessamex%2C%2C-1%7CSaveFtrPers%2C%2C-1%7CSaveFtrSess%2C%2C-1%7Cpers_rev%2C%2C-1%7CRBASess%2C%2C-1%7Cperssticker%2C%2C-1%7CMetaFtrSess%2C%2C-1%7Cmds%2C%2C-1%7CRBAPers%2C%2C-1%7CWAR_RESTAURANT_FOOTER_PERSISTANT%2C%2C-1%7CMetaFtrPers%2C%2C-1%7C; TAReturnTo=%1%%2FAttraction_Review-g60763-d1687489-Reviews-The_National_9_11_Memorial_Museum-New_York_City_New_York.html; _jzqx=1.1461163798.1464829056.3.jzqsr=tripadvisor%2Ecn|jzqct=/attractions-g60763-activities-new_york_city_new_york%2Ehtml.jzqsr=tripadvisor%2Ecn|jzqct=/attractions-g60763-activities-new_york_city_new_york%2Ehtml; roybatty=AMO%2BuRqD4X6mrI%2FdkihO6SQRm8U1MzgRaLqYtAv1%2BnH%2BbBqTWloasiGsBbHvzicfw5Hz1hzJidthRhOOdKhEyEmdAnN7dLInMp06y2BBQ23lWR4m%2FyebLmBmvWLYuIiDeaGI5CbGAr%2BA%2F3TYUxxLA947TrYhXrXWzQ0uG8paNGZd%2C1; TASession=%1%V2ID.BD0BBE2EED6EB075774995BCEB9C8B43*SQ.20*LS.SavesAjax*GR.56*TCPAR.67*TBR.92*EXEX.53*ABTR.32*PPRP.76*PHTB.6*FS.28*CPU.56*HS.popularity*ES.popularity*AS.popularity*DS.5*SAS.popularity*FPS.oldFirst*TS.5D6F093B439A5AD40CB39E156980DB8B*LF.zhCN*FA.1*DF.0*LP.%2FLangRedirect%3Fauto%3D3%26origin%3Den_US%26pool%3DA%26returnTo%3D%252F*IR.3*OD.en_US*MS.-1*RMS.-1*FLO.60763*TRA.true*LD.1687489; TAUD=LA-1464827274965-1*LG-1988476-2.1.F*LD-1988478-.....; Hm_lvt_2947ca2c006be346c7a024ce1ad9c24a=1464827094; Hm_lpvt_2947ca2c006be346c7a024ce1ad9c24a=1464829074; ki_t=1461160724394%3B1464827095962%3B1464829073873%3B3%3B24; ki_r=; _qzja=1.398601154.1461160723640.1464827095558.1464829055540.1464829055540.1464829073970..0.0.24.7; _qzjb=1.1464829055539.2.0.0.0; _qzjc=1; _qzjto=7.2.0; _jzqa=1.1187422896885783000.1461160723.1464827094.1464829056.7; _jzqc=1; _jzqb=1.2.10.1464829056.1; NPID='}
def get_attractions(url,data=None):    
      wb_data = requests.get(url)   
       soup = BeautifulSoup(wb_data.text,'lxml') #變?yōu)榭勺x的文件务蝠,使用text方法              time.sleep(2)#2秒訪問一次    
#print(soup)    
titles = soup.select('div.property_title > a[target="_blank]')#去除聚合性標(biāo)簽,通過觀察發(fā)現(xiàn)聂示,非聚合性的標(biāo)簽中target=_blank    
images = soup.select('img[width="160"]') #標(biāo)簽+[特定屬性的值] 通過該這種方式找到想要的某種元素    
cates = soup.select('div.p13n_reasoning_v2') #標(biāo)簽一對多就乓,要在它的上一級就停下來查找    
#為了方便查找,將以上的信息裝入字典中    
for title, img, cate in zip(titles,images,cates):      
  data = {            
'title':title.get_text(),           
 'img': img.get('src'),           
 'cate':list(cate.stripped_strings) #stripped_strings方法獲得一個副標(biāo)簽下的所有子標(biāo)簽的文本,由于內(nèi)容是成組的镜盯,所以列表化        }        print(data)'''打印結(jié)果顯示腹忽,圖片地址完全一樣建芙,是因為網(wǎng)站進行了反爬取没隘,這時在檢查里復(fù)制一個圖片鏈接然后在網(wǎng)頁中點擊顯示原代碼,查找ctrl+F這個圖片鏈接,再查找loayload禁荸,需要正則匹配查找右蒲,但不是長久之計。之后會有簡單方法爬取圖片'''#對登錄后保存的清單進行爬取赶熟。這需要登錄和密碼才能看到瑰妄,現(xiàn)在需要告訴瀏覽器,我們是誰映砖,需要在network中header里能作為身份識別的cookie,就能告訴服務(wù)器我們的狀態(tài)#構(gòu)造向服務(wù)器提交的參數(shù):headers,在request headersdef get_fav(url,data=None):    
    wb_data = requests.get(user_saves,headers=headers)#添加默認(rèn)參數(shù)间坐,    
    soup = BeautifulSoup(wb_data.text,'lxml')    
    titles = soup.select('a.location-name')   
     imgs = soup.select('img.photo_image')    
    addresses = soup.select('span.format_address')    
    for title,img,address in zip(titles,imgs,addresses):       
     data = {            
        'title':title.get_text(),           
         'img':img.get('src'),            
        'address':list(address.stripped_strings),        
    }        
    print(data)
#print(urls)for singgle_url in urls:    
get_attractions(singgle_url)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市邑退,隨后出現(xiàn)的幾起案子竹宋,更是在濱河造成了極大的恐慌,老刑警劉巖地技,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜈七,死亡現(xiàn)場離奇詭異,居然都是意外死亡莫矗,警方通過查閱死者的電腦和手機飒硅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來作谚,“玉大人三娩,你說我怎么就攤上這事∈晨模” “怎么了尽棕?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長彬伦。 經(jīng)常有香客問我滔悉,道長,這世上最難降的妖魔是什么单绑? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任回官,我火速辦了婚禮,結(jié)果婚禮上搂橙,老公的妹妹穿的比我還像新娘歉提。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布苔巨。 她就那樣靜靜地躺著版扩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪侄泽。 梳的紋絲不亂的頭發(fā)上礁芦,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機與錄音悼尾,去河邊找鬼柿扣。 笑死,一個胖子當(dāng)著我的面吹牛闺魏,可吹牛的內(nèi)容都是我干的未状。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼析桥,長吁一口氣:“原來是場噩夢啊……” “哼司草!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起泡仗,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤翻伺,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后沮焕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吨岭,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年峦树,在試婚紗的時候發(fā)現(xiàn)自己被綠了辣辫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡魁巩,死狀恐怖急灭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谷遂,我是刑警寧澤葬馋,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站肾扰,受9級特大地震影響畴嘶,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜集晚,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一窗悯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧偷拔,春花似錦蒋院、人聲如沸亏钩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽姑丑。三九已至,卻和暖如春辞友,著一層夾襖步出監(jiān)牢的瞬間彻坛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工踏枣, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人钙蒙。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓茵瀑,卻偏偏與公主長得像,于是被迫代替她去往敵國和親躬厌。 傳聞我的和親對象是個殘疾皇子马昨,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容