寒假學(xué)爬蟲筆記 NO.2

新聞爬蟲1.1 抓取新聞內(nèi)頁

材料:Pycharm,Chrome開發(fā)人員工具,infoLite插件旁趟,bs4,request

在前面我們已經(jīng)將新聞列表頁面的所有鏈接都下載下來了,但是還不夠,我們希望可以獲取鏈接所指的各個(gè)單個(gè)新聞的標(biāo)題吱韭、來源、時(shí)間以及內(nèi)文痘煤。
這里我們從特殊到一般猿规,而用到的方法還是筆記NO.1中對select的活用姨俩,先以一個(gè)鏈接為例。

取得內(nèi)文頁面

和抓取列表頁面的初始步驟一樣调窍,我們首先要將原材料整個(gè)的放到soup里進(jìn)行一個(gè)剖析张遭,然后再逐個(gè)提取出我們想要的元素。取得頁面的說明不再贅述先誉。

import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.sina.com.cn/c/nd/2017-01-04/doc-ifxzczff3681310.shtml')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')

獲取內(nèi)文標(biāo)題

通過檢查工具得知標(biāo)題是一個(gè)特殊的css屬性標(biāo)簽,ID是artibodyTitle诈闺,通過soup的select傳回一個(gè)list雅镊,再通過取出list里內(nèi)容的方法取出來。

title= soup.select('#artibodyTitle')[0].text

取得來源和時(shí)間

本來想處理時(shí)間耸弄,時(shí)間的類是time-source卓缰,結(jié)果select回傳的結(jié)果里既有時(shí)間又有來源征唬。使用.text也無法將之分開。
select的回傳列表結(jié)果:

[<span class="time-source" id="navtimeSource">2017年01月04日09:47      <span>
<span data-sudaclick="media_name">
\<a href="http://www.cma.gov.cn/2011zwxx/2
011zyjgl/2011zyjxy/2011zqxyj/201701/\t20170104_382215.html
\" rel="nofollow" target="_blank">政府網(wǎng)站</a></span></span>
</span>]

所以這里要采用contents將時(shí)間和來源取出來扶歪。

關(guān)于.contents的幫助文檔說明
tag的.contents屬性可以將tag的子節(jié)點(diǎn)以列表的方式輸出善镰。新聞的時(shí)間精確到日就可以了,對字符串進(jìn)行切片處理乎完。

time = soup.select('.time-source')[0].contents[:10]

接下來我們要思考如何取出來源竣稽,通過檢查工具我們可以看到毫别,來源是在時(shí)間的層級之下的,這也很好的解釋了為什么用contens處理下來台丛,和來源有關(guān)的東西并沒有發(fā)生變化砾肺,因?yàn)樗歉綄倨湎卤渫簦⑶矣梢粋€(gè)span里的a tag控制的。

![Uploading time-source_539741.png . . .]

所以試試用這個(gè)把它select出來

medianame = soup.select('.time-source span a')[0].text

取得內(nèi)文

內(nèi)文位于artibody p里实胸,同樣的方法取出番官。觀察由三個(gè)成分組成徘熔,<p>分隔符、控制符以及我們需要的文字內(nèi)容讶凉。通過strip去除控制符窒升,再遍歷輸出

article = soup.select('#artibody p')[:-1]

獲得編輯名稱

同理饱须,略

author = soup.select('.article-editor')[0].text.strip('責(zé)任編輯:')

新聞爬蟲1.1 抓取新聞內(nèi)頁

材料:Pycharm,Chrome開發(fā)人員工具譬挚,infoLite插件减宣,bs4,request

在前面我們已經(jīng)將新聞列表頁面的所有鏈接都下載下來了贼邓,但是還不夠闷尿,我們希望可以獲取鏈接所指的各個(gè)單個(gè)新聞的標(biāo)題填具、來源、時(shí)間以及內(nèi)文誉简。
這里我們從特殊到一般盟广,而用到的方法還是筆記NO.1中對select的活用筋量,先以一個(gè)鏈接為例。

取得內(nèi)文頁面

和抓取列表頁面的初始步驟一樣,我們首先要將原材料整個(gè)的放到soup里進(jìn)行一個(gè)剖析玻募,然后再逐個(gè)提取出我們想要的元素一姿。取得頁面的說明不再贅述叮叹。

import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.sina.com.cn/c/nd/2017-01-04/doc-ifxzczff3681310.shtml')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')

獲取內(nèi)文標(biāo)題

通過檢查工具得知標(biāo)題是一個(gè)特殊的css屬性標(biāo)簽蛉顽,ID是artibodyTitle,通過soup的select傳回一個(gè)list悼粮,再通過取出list里內(nèi)容的方法取出來。

title= soup.select('#artibodyTitle')[0].text

取得來源和時(shí)間

本來想處理時(shí)間菜循,時(shí)間的類是time-source申尤,結(jié)果select回傳的結(jié)果里既有時(shí)間又有來源昧穿。使用.text也無法將之分開。
select的回傳列表結(jié)果:

[<span class="time-source" id="navtimeSource">2017年01月04日09:47      <span>
<span data-sudaclick="media_name">
\<a href="http://www.cma.gov.cn/2011zwxx/2
011zyjgl/2011zyjxy/2011zqxyj/201701/\t20170104_382215.html
\" rel="nofollow" target="_blank">政府網(wǎng)站</a></span></span>
</span>]

所以這里要采用contents將時(shí)間和來源取出來谚中。

關(guān)于.contents的幫助文檔說明
tag的.contents屬性可以將tag的子節(jié)點(diǎn)以列表的方式輸出宪塔。新聞的時(shí)間精確到日就可以了囊拜,對字符串進(jìn)行切片處理冠跷。

time = soup.select('.time-source')[0].contents[:]

接下來我們要思考如何取出來源,通過檢查工具我們可以看到抄囚,來源是在時(shí)間的層級之下的,這也很好的解釋了為什么用contens處理下來橄务,和來源有關(guān)的東西并沒有發(fā)生變化幔托,因?yàn)樗歉綄倨湎拢⑶矣梢粋€(gè)span里的 a tag 控制的蜂挪。

time-source.png

所以試試用這個(gè)把它select出來

medianame = soup.select('.time-source span a')[0].text

取得內(nèi)文

內(nèi)文位于artibody p里重挑,同樣的方法取出。觀察由三個(gè)成分組成棠涮,<p>分隔符谬哀、控制符以及我們需要的文字內(nèi)容。通過strip去除控制符严肪,再遍歷輸出

article = soup.select('#artibody p')[:-1]

獲得編輯名稱

同理史煎,略

author = soup.select('.article-editor')[0].text.strip('責(zé)任編輯:')
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市劲室,隨后出現(xiàn)的幾起案子伦仍,更是在濱河造成了極大的恐慌,老刑警劉巖很洋,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件充蓝,死亡現(xiàn)場離奇詭異,居然都是意外死亡喉磁,警方通過查閱死者的電腦和手機(jī)谓苟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來协怒,“玉大人涝焙,你說我怎么就攤上這事≡邢荆” “怎么了仑撞?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長妖滔。 經(jīng)常有香客問我隧哮,道長,這世上最難降的妖魔是什么座舍? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任沮翔,我火速辦了婚禮,結(jié)果婚禮上曲秉,老公的妹妹穿的比我還像新娘采蚀。我一直安慰自己,他們只是感情好承二,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布榆鼠。 她就那樣靜靜地躺著,像睡著了一般亥鸠。 火紅的嫁衣襯著肌膚如雪璧眠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天读虏,我揣著相機(jī)與錄音,去河邊找鬼袁滥。 笑死盖桥,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的题翻。 我是一名探鬼主播揩徊,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼腰鬼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了塑荒?” 一聲冷哼從身側(cè)響起熄赡,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎齿税,沒想到半個(gè)月后彼硫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡凌箕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年拧篮,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牵舱。...
    茶點(diǎn)故事閱讀 39,981評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡串绩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出芜壁,到底是詐尸還是另有隱情礁凡,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布慧妄,位于F島的核電站顷牌,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏腰涧。R本人自食惡果不足惜韧掩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望窖铡。 院中可真熱鬧疗锐,春花似錦、人聲如沸费彼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽箍铲。三九已至雇卷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間颠猴,已是汗流浹背关划。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留翘瓮,地道東北人贮折。 一個(gè)月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像资盅,于是被迫代替她去往敵國和親调榄。 傳聞我的和親對象是個(gè)殘疾皇子踊赠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內(nèi)容