- 用chrome 來獲取cookies 在Network選項中射亏。
1.jpg
為了篩選出 這一類的標題近忙,那么分析后市發(fā)現(xiàn)他們有共同屬性的,就包括 圖片也一樣鸦泳。
titles = soup.select('div.property_title > a[target="_blank"]')
imgs = soup.select('img[width="160"]')
這里面 標題就是都有相同的 父級標簽,而 圖片寬度都是160 的永品。
我們是不需要帶有聚合性標簽的標題做鹰,那么我們就要分析 他和其他普通標簽是有什么不一樣的地方。
1.jpg
看一下兩個具體鏈接有什么不一樣的 地方
1.jpg
- 我們想要的 鏈接里面有單獨的 target 標簽 所以我們 的代碼應該如下鼎姐。
titles = soup.select('div.property_title > a[target="_blank"]')
- 制造頭信息
headers = { 'User-Agent':'', 'Cookie':''}
wb_data = requests.get(url,headers = headers)
1.jpg
- 自動化鏈接
urls =['http://www.tripadvisor.cn/Attractions-g60763-Activities-oa{}-New_York_City_New_York.html#ATTRACTION_LIST'.format(str(i)) for i in range(0,930,30)]
知識點钾麸,{} .format() str(i) for i in range(0,930,30) 并且把這些鏈接放入一個列表。
那么要訪問里面的 每一個鏈接炕桨, 我們需要的是 用for 循環(huán)來解決饭尝。