爬取多個url頁面時常用到的方法:
1粥脚、定義get_page_link(函數(shù)):
page_link = [] ? ? ? ? ? ? ? ? # <- 每個詳情頁的鏈接都存在這里炼幔,解析詳情的時候就遍歷這個列表然后訪問就好啦~
def get_page_link(page_number):
? ? ? ?for each_numberinrange(1,page_number): ? ? ? ? ? ? ? ? ? ? ? ? ? # 每頁24個鏈接,這里輸入的是頁碼
? ? ? ? ? ? ? ? ? full_url ='http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(each_number)
? ? ? ? ? ? ? ? ? wb_data = requests.get(full_url)
? ? ? ? ? ? ? ? ? soup = BeautifulSoup(wb_data.text,'lxml')
? ? ? ? ? ? ? ? ? for link in soup.select('a.resule_img_a'): ? ? ? ? ? ? ?# 找到這個 class 樣為resule_img_a 的 a 標(biāo)簽即可
? ? ? ? ? ? ? ? ? ? ? ? ? ?page_link.append(link)