公眾號(hào):大鄧帶你玩python?
本文建議在公眾號(hào)閱讀拌牲,從公眾號(hào)復(fù)制過程中缺失了很多圖片
在那種情景下,是個(gè)人都很難理性的歌粥。于歡與其母人身自由失去了塌忽,生命權(quán)生存權(quán)尊嚴(yán)的權(quán)利面臨著隨時(shí)被侵害的風(fēng)險(xiǎn),在這種情況下失驶,為了自己的母親土居,于歡做了他應(yīng)該做的事情,我覺得他沒有做錯(cuò)突勇。
他的行為合情:
于歡因?yàn)槟赣H受辱装盯,做出了我們都認(rèn)為對(duì)的事情,兒子就該這樣做甲馋,符合孝道為人子的行為規(guī)范埂奈,他的行為,合情定躏。
他的行為合法:
在那特定情境下账磺,人身自由被限制,生命安全隨時(shí)受到傷害痊远,屬于不法侵害正在發(fā)生垮抗,阻止犯罪行為的繼續(xù)進(jìn)行,屬于正當(dāng)防衛(wèi)碧聪,合法冒版。
哎,但有的時(shí)候我就是覺得法律與人情有交叉又有分離逞姿,并不能完美的劃上等號(hào)辞嗡,這真的很讓人糾結(jié)。
故事的開始是這樣
2016年4月14日滞造,一位22歲的男子于歡续室,在母親蘇銀霞和自己被11名催債人長(zhǎng)達(dá)一小時(shí)的侮辱后,情急之下用水果刀刺傷了4人谒养。其中挺狰,被刺中的杜志浩自行駕車就醫(yī),卻因失血過多休克死亡买窟。兒子于歡因刺死1人被判無期丰泊,判決引發(fā)社會(huì)熱議。山東女企業(yè)家蘇銀霞年輕的兒子于歡始绍,殺死了催債人杜志浩趁耗。
案例:于歡案微博評(píng)論
微博搜#辱母殺人案#,我們發(fā)現(xiàn)人民日?qǐng)?bào)的評(píng)論都只有不到1000條疆虚,但通過一些分析苛败,發(fā)現(xiàn)澎湃新聞相關(guān)新聞?dòng)薪?萬條評(píng)論满葛。那么我們就爬“澎湃新聞”吧
如果不想看后面的詳細(xì)圖文,也可直接看視頻
任務(wù)分析
我們之前做過幾次微動(dòng)態(tài)網(wǎng)頁爬蟲嘀韧,也有針對(duì)微博的爬蟲任務(wù)。通過經(jīng)驗(yàn)缠捌,總結(jié)為一下幾個(gè)要點(diǎn):
1锄贷、抓包分析獲得有規(guī)律的網(wǎng)址
2、使用cookie保持微博的登錄狀態(tài)
3曼月、數(shù)據(jù)傳輸是json格式(類似于字典)
4谊却、這次用正則表達(dá)式匹配出想要的評(píng)論文本
4、這次再多一個(gè)文本數(shù)據(jù)的保存
1哑芹、抓包分析
澎湃新聞網(wǎng)址
http://weibo.com/thepapernewsapp?refer_flag=1005055014_
點(diǎn)擊這條新聞的評(píng)論炎辨,出現(xiàn)下圖:
然后我們點(diǎn)擊“查看更多”,彈出了另外一個(gè)網(wǎng)頁
http://weibo.com/5044281310/EBCPc6GhJ?filter=hot&root_comment_id=0&type=comment
打開開發(fā)者工具聪姿,進(jìn)行抓包分析碴萧,先點(diǎn)擊‘查看更多’
出現(xiàn)可疑網(wǎng)址
可疑網(wǎng)址:
http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4089673821592515&root_comment_max_id=183623306287751&root_comment_max_id_type=0&root_comment_ext_param=&page=4&filter=hot&sum_comment_number=6598&filter_tips_before=0&from=singleWeiBo&__rnd=1490606915317
發(fā)現(xiàn)該網(wǎng)址中去掉不可用的部分,如下
'http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4089673821592515&root_comment_max_id=162870024611262&root_comment_max_id_type=0&root_comment_ext_param=&page=5&filter=hot'
發(fā)現(xiàn)現(xiàn)在是在第五個(gè)葉片末购,page=5破喻。
那么我們就先默認(rèn)這個(gè)網(wǎng)址是可行的,進(jìn)行后續(xù)的操作盟榴。
構(gòu)造出base_url =?'http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4089673821592515&root_comment_max_id=162870024611262&root_comment_max_id_type=0&root_comment_ext_param=&page={page}&filter=hot'
2曹质、cookie的使用
這里我就簡(jiǎn)單說下吧
Cookie = {'Cookie':‘你的cookie’}
然后發(fā)請(qǐng)求
r = requests.get(url, cookies= Cookie)
3、json格式數(shù)據(jù)
r = requests.get(url, cookies= Cookie)
在咱們這個(gè)案例中擎场,數(shù)據(jù)就是類似于字典的數(shù)據(jù)
r.text返回的似乎是dict格式的數(shù)據(jù)羽德,那么真的如自己所想嗎?檢驗(yàn)下數(shù)據(jù)格式
結(jié)果print(type(r.text))返回的是str顶籽,所以我們暫時(shí)還不能用dict[key]這種方式獲取我們想要的html數(shù)據(jù)。
這里首先要將str轉(zhuǎn)換為dict银觅,解決辦法有兩個(gè):
方法一:
import json
Data = json.loads(r.text)
方法二:
直接使用requests的方法
Data = r.json()
我們使用方法二礼饱,也建議大家使用方法二:
現(xiàn)在我們馬上能能獲取html了,在其中也應(yīng)該能找到評(píng)論究驴。結(jié)果如下
4镊绪、正則匹配出評(píng)論文本
首先我們列出幾個(gè)評(píng)論,如下
:不是所有的警察都是這樣的洒忧。就是因?yàn)閿☆惥焯唷?/p>
:嚴(yán)查黑惡勢(shì)力的保護(hù)傘蝴韭,公安系統(tǒng)沒有保護(hù)傘,他們不會(huì)那么猖獗
我們發(fā)現(xiàn)評(píng)論內(nèi)容前都出現(xiàn)了,評(píng)論內(nèi)容后出現(xiàn)
那么我們可以構(gòu)造一個(gè)正則表達(dá)式規(guī)律模板:
re.compile(r': (.*?) )
但是熙侍,評(píng)論中還是有雜質(zhì)榄鉴,如圖片鏈接等履磨,我們只要漢字內(nèi)容!G斐尽剃诅!
那么我們這里再用一次正則,匹配出所有的漢字
漢字的正則表達(dá)式是
re.compile(r'[\u4e00-\u9fa5]')
多個(gè)漢字的表達(dá)式是
re.compile(r'[\u4e00-\u9fa5]+')
我們用多個(gè)(多于一個(gè)漢字)漢字的表達(dá)式
但評(píng)論是列表格式驶忌,我們必須把每個(gè)評(píng)論編程字符串格式矛辕。這里用到列表中多個(gè)字符串的拼接方法
5、保存
import os
#獲取當(dāng)前代碼所在的文件夾路徑
path = os.getcwd()
filename = '辱母殺人評(píng)論.txt'
file = path + '/' + filename
f = open(file, 'a+', encoding='utf-8')
#文本寫入txt文件
f.write(comment)
#這么詳細(xì)付魔,不要我寫了吧聊品,大功告成了
更多內(nèi)容
大數(shù)據(jù)
爬蟲
【視頻】有了selenium几苍,小白也可以自豪的說:“去TMD的抓包翻屈、cookie”
【視頻】快來get新技能--抓包+cookie,爬微博不再是夢(mèng)
用Python抓取百度地圖里的店名,地址和聯(lián)系方式
文本分析
基于共現(xiàn)發(fā)現(xiàn)人物關(guān)系的python實(shí)現(xiàn)
神奇的python