新聞爬蟲1.1 抓取新聞內(nèi)頁
材料:Pycharm,Chrome開發(fā)人員工具,infoLite插件旁趟,bs4,request
在前面我們已經(jīng)將新聞列表頁面的所有鏈接都下載下來了,但是還不夠,我們希望可以獲取鏈接所指的各個(gè)單個(gè)新聞的標(biāo)題吱韭、來源、時(shí)間以及內(nèi)文痘煤。
這里我們從特殊到一般猿规,而用到的方法還是筆記NO.1中對select的活用姨俩,先以一個(gè)鏈接為例。
取得內(nèi)文頁面
和抓取列表頁面的初始步驟一樣调窍,我們首先要將原材料整個(gè)的放到soup里進(jìn)行一個(gè)剖析张遭,然后再逐個(gè)提取出我們想要的元素。取得頁面的說明不再贅述先誉。
import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.sina.com.cn/c/nd/2017-01-04/doc-ifxzczff3681310.shtml')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
獲取內(nèi)文標(biāo)題
通過檢查工具得知標(biāo)題是一個(gè)特殊的css屬性標(biāo)簽,ID是artibodyTitle诈闺,通過soup的select傳回一個(gè)list雅镊,再通過取出list里內(nèi)容的方法取出來。
title= soup.select('#artibodyTitle')[0].text
取得來源和時(shí)間
本來想處理時(shí)間耸弄,時(shí)間的類是time-source卓缰,結(jié)果select回傳的結(jié)果里既有時(shí)間又有來源征唬。使用.text也無法將之分開。
select的回傳列表結(jié)果:
[<span class="time-source" id="navtimeSource">2017年01月04日09:47 <span>
<span data-sudaclick="media_name">
\<a href="http://www.cma.gov.cn/2011zwxx/2
011zyjgl/2011zyjxy/2011zqxyj/201701/\t20170104_382215.html
\" rel="nofollow" target="_blank">政府網(wǎng)站</a></span></span>
</span>]
所以這里要采用contents將時(shí)間和來源取出來扶歪。
關(guān)于.contents的幫助文檔說明
tag的.contents屬性可以將tag的子節(jié)點(diǎn)以列表的方式輸出善镰。新聞的時(shí)間精確到日就可以了,對字符串進(jìn)行切片處理乎完。
time = soup.select('.time-source')[0].contents[:10]
接下來我們要思考如何取出來源竣稽,通過檢查工具我們可以看到毫别,來源是在時(shí)間的層級之下的,這也很好的解釋了為什么用contens處理下來台丛,和來源有關(guān)的東西并沒有發(fā)生變化砾肺,因?yàn)樗歉綄倨湎卤渫簦⑶矣梢粋€(gè)span里的a tag控制的。
![Uploading time-source_539741.png . . .]
所以試試用這個(gè)把它select出來
medianame = soup.select('.time-source span a')[0].text
取得內(nèi)文
內(nèi)文位于artibody p里实胸,同樣的方法取出番官。觀察由三個(gè)成分組成徘熔,<p>分隔符、控制符以及我們需要的文字內(nèi)容讶凉。通過strip去除控制符窒升,再遍歷輸出
article = soup.select('#artibody p')[:-1]
獲得編輯名稱
同理饱须,略
author = soup.select('.article-editor')[0].text.strip('責(zé)任編輯:')
新聞爬蟲1.1 抓取新聞內(nèi)頁
材料:Pycharm,Chrome開發(fā)人員工具譬挚,infoLite插件减宣,bs4,request
在前面我們已經(jīng)將新聞列表頁面的所有鏈接都下載下來了贼邓,但是還不夠闷尿,我們希望可以獲取鏈接所指的各個(gè)單個(gè)新聞的標(biāo)題填具、來源、時(shí)間以及內(nèi)文誉简。
這里我們從特殊到一般盟广,而用到的方法還是筆記NO.1中對select的活用筋量,先以一個(gè)鏈接為例。
取得內(nèi)文頁面
和抓取列表頁面的初始步驟一樣,我們首先要將原材料整個(gè)的放到soup里進(jìn)行一個(gè)剖析玻募,然后再逐個(gè)提取出我們想要的元素一姿。取得頁面的說明不再贅述叮叹。
import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.sina.com.cn/c/nd/2017-01-04/doc-ifxzczff3681310.shtml')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
獲取內(nèi)文標(biāo)題
通過檢查工具得知標(biāo)題是一個(gè)特殊的css屬性標(biāo)簽蛉顽,ID是artibodyTitle,通過soup的select傳回一個(gè)list悼粮,再通過取出list里內(nèi)容的方法取出來。
title= soup.select('#artibodyTitle')[0].text
取得來源和時(shí)間
本來想處理時(shí)間菜循,時(shí)間的類是time-source申尤,結(jié)果select回傳的結(jié)果里既有時(shí)間又有來源昧穿。使用.text也無法將之分開。
select的回傳列表結(jié)果:
[<span class="time-source" id="navtimeSource">2017年01月04日09:47 <span>
<span data-sudaclick="media_name">
\<a href="http://www.cma.gov.cn/2011zwxx/2
011zyjgl/2011zyjxy/2011zqxyj/201701/\t20170104_382215.html
\" rel="nofollow" target="_blank">政府網(wǎng)站</a></span></span>
</span>]
所以這里要采用contents將時(shí)間和來源取出來谚中。
關(guān)于.contents的幫助文檔說明
tag的.contents屬性可以將tag的子節(jié)點(diǎn)以列表的方式輸出宪塔。新聞的時(shí)間精確到日就可以了囊拜,對字符串進(jìn)行切片處理冠跷。
time = soup.select('.time-source')[0].contents[:]
接下來我們要思考如何取出來源,通過檢查工具我們可以看到抄囚,來源是在時(shí)間的層級之下的,這也很好的解釋了為什么用contens處理下來橄务,和來源有關(guān)的東西并沒有發(fā)生變化幔托,因?yàn)樗歉綄倨湎拢⑶矣梢粋€(gè)span里的 a tag 控制的蜂挪。
所以試試用這個(gè)把它select出來
medianame = soup.select('.time-source span a')[0].text
取得內(nèi)文
內(nèi)文位于artibody p里重挑,同樣的方法取出。觀察由三個(gè)成分組成棠涮,<p>分隔符谬哀、控制符以及我們需要的文字內(nèi)容。通過strip去除控制符严肪,再遍歷輸出
article = soup.select('#artibody p')[:-1]
獲得編輯名稱
同理史煎,略
author = soup.select('.article-editor')[0].text.strip('責(zé)任編輯:')