思路如下:
1、先觀察一下前幾頁的信息胜宇。發(fā)現(xiàn)前三頁網(wǎng)址如下:
http://sh.xiaozhu.com/
http://sh.xiaozhu.com/search-duanzufang-p2-0/
http://sh.xiaozhu.com/search-duanzufang-p3-0/
把第一頁的網(wǎng)站改成http://sh.xiaozhu.com/search-duanzufang-p1-0/進行訪問得到同樣的結(jié)果泳叠,因此只需要把P后面的數(shù)字改掉就可以了(是不是想到了format方法)
2作瞄、本次爬蟲在詳細頁面中進行,因此需爬取進入詳細頁的鏈接危纫,進而爬取數(shù)據(jù)宗挥。
3节预、需要爬取的信息有:標題,地址属韧,價格,房東名稱蛤吓,房東性別和房東頭像的鏈接
部分函數(shù)代碼
#爬蟲部分結(jié)果