簡單爬取松花江新聞網(wǎng)新聞[http://www.shjnet.cn/ms/msxw/]
1炕贵、先分析網(wǎng)頁的源碼查看要爬取的內(nèi)容在什么位置
2阅嘶、分析html取到想要的內(nèi)容
1燃辖、 查看源碼
image.png
發(fā)現(xiàn)我們要的數(shù)據(jù)在<h4 標(biāo)簽下
2师崎、通過編碼通過requests獲取網(wǎng)頁源碼
html = requests.get(url).content
然后通過BeautifulSoup找到我們想要的標(biāo)簽
links = soup.find_all('h4', class_='blank')
這樣就爬取到新聞列表的數(shù)據(jù)
3瓜浸、接下來通過列表爬取到的url去獲取詳情的內(nèi)容拂酣,方法同上面一樣
直接貼源碼:
#!/usr/bin/env python
# coding:utf8
import sys
import requests
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf8")
url = 'http://www.shjnet.cn/ms/msxw/index.html'
def getNewsList(url, page=0):
if (page != 0):
url = 'http://www.shjnet.cn/ms/msxw/index_%s.html' % page
html = requests.get(url).content
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('h4', class_='blank')
for link in links:
detailUrl = "http://www.shjnet.cn/ms/msxw/" + link.a.get('href').replace('./', '')
print "-------------------------"
print "新聞標(biāo)題:" + link.a.get_text() + " 詳情地址:" + detailUrl
getNewsDetail(detailUrl)
page = int(page) + 1
print soup.select('#pagenav_%s' % page)
if (soup.select('#pagenav_%s' % page)):
print u'開始抓取下一頁'
print 'the %s page' % page
getNewsList(url, page)
def getNewsDetail(detailUrl):
html = requests.get(detailUrl).content
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('div', class_='col-md-9')
for link in links:
# print link.span.get_text()
# print link.h2.get_text()
# print link.find('div', class_='cas_content').get_text()
if (link.find('div', class_='col-md-10').select('img')):
imgs = link.find('div', class_='col-md-10').find_all('img')
for img in imgs:
print "圖片:" + detailUrl[:detailUrl.rfind('/')] + "/" + img.get('src').replace('./', '')
if __name__ == '__main__':
getNewsList(url)
效果:
image.png
本文使用的python為2.7
爬取中遇見的問題
- 打印
html = requests.get(url).text
亂碼
咨詢了小分隊(duì)群里的同學(xué)們秋冰,得到解答。
.text
返回的是Unicode型數(shù)據(jù)婶熬。
.content
返回的是bytes型也就是二進(jìn)制的數(shù)據(jù)
然后把html = requests.get(url).content
解決亂碼問題 - 拼接詳情url時(shí)剑勾,去掉
./
多余的字符串
link.a.get('href').replace('./', '')
- 獲取詳情內(nèi)容時(shí)報(bào)錯(cuò)
image.png
原因是需要添加
http://
開頭
- 第一次使用BeautifulSoup 查看了向右老大的簡書了解使用方法