一、認識網(wǎng)頁
?????? 網(wǎng)頁分為三個部分:HTML(結(jié)構(gòu))、CSS(樣式)噪服、JavaScript(功能)。
二胜茧、爬取網(wǎng)站信息入門
1粘优、Soup = BeautifulSoup (html, 'lxml'),使用beautifulsoup來解析網(wǎng)頁呻顽。
2雹顺、使用copy CSS selector來復制網(wǎng)頁元素的位置。
三廊遍、爬取房天下網(wǎng)站信息?
1嬉愧、導入requests和beautifulsoup
2、定義函數(shù)spider_ftx喉前,把所需要爬取的信息都定義出來
3没酣、調(diào)用函數(shù)spider_ftx
4王财、翻頁爬取二手房信息
???? 由于每頁最多只能顯示40條信息,觀察每一頁網(wǎng)址的變化規(guī)律裕便,寫一個循環(huán)調(diào)用的語句绒净,把全部100頁的信息全都爬取下來。
四偿衰、小結(jié):
???? 目前只能爬取到網(wǎng)站的100頁信息疯溺,網(wǎng)站為了反爬,設置了可瀏覽的頁面量100哎垦。要想爬取網(wǎng)站的所有信息囱嫩,可以通過分類去獲取,但是如何用python實現(xiàn)呢漏设,請看下集墨闲。