首先使用chrome瀏覽器园担,找到網頁要爬取內容的代碼忌锯,鼠標選中,右鍵丑念,選擇菜單項“檢查”
之后让蕾,就會在頁面下方該選中位置的源代碼浪规,
這時,就可以查看class, p, title等標簽探孝。寫python代碼進行爬取了笋婿。
爬取鳳凰新聞頁面的新聞標題,簡介顿颅,時間和鏈接缸濒。
代碼如下:
import requests
from bs4 import BeautifulSoup
web_data =requests.get('http://news.ifeng.com/listpage/101231/1/list.shtml')
soup = BeautifulSoup(web_data.text,'lxml')
a = 1
for data in soup.select('.box_list'):
detail =data.select('.box_txt p')[0].text
time =data.select('span')[0].text
title =data.select('h2 a')[0]['title']
link =data.select('h2 a ')[0]['href']
print('%d.'%a,title,link,detail,time)
a = a+1
print("新聞條數:",a-1)
爬取截圖如下: