關(guān)于江歌案的討論和分析,我呢记盒,當然是站在正義一方的憎蛤,而且我也不想重復(fù)那些結(jié)論了。
不過網(wǎng)上仍然有很多關(guān)于江歌案的文章和討論纪吮,我也想了解一下其他人的看法俩檬,了解一下輿情(笑)。但你讓我一個個看下去碾盟,emmmmm……力不從心啊豆胸。
作為新時代的文科生,我就班門弄斧寫了個小爬蟲巷疼,爬了一些文章下來晚胡。
這篇文章就介紹一下這個。
一嚼沿、準備
對于這方面有所了解的人來說可能沒什么估盘,但我還是寫一下吧。
首先骡尽,我們需要安裝Python運行環(huán)境遣妥。如果你用的是macOS,那么你的系統(tǒng)里面實際已經(jīng)預(yù)裝好了Python攀细。如果是windows箫踩,可以上網(wǎng)搜索python官網(wǎng),進去下載相應(yīng)版本即可谭贪。
然后我們要使用到許多擴展包的功能境钟。因此最好安裝一個Python工具套裝。只需要一次安裝俭识,以后大部分的功能就都已集成了慨削。不必每次使用新功能,都去零敲碎打地安裝新包了。
Python的套裝有許多種缚态,這里推薦的是anaconda磁椒。這款軟件包的安裝更為便捷,擴展包的涵蓋范圍與結(jié)構(gòu)更合理玫芦。
請你到https://www.anaconda.com/download/下載anaconda套裝浆熔。下拉網(wǎng)頁找到下載位置。根據(jù)你的操作系統(tǒng)類型選擇合適的版本桥帆。
選擇3.X版本蘸拔,這是python的未來。
接著請打開cmd命令臺(命令提示符)环葵,鍵入以下命令调窍。因為我不是單純的只是爬取文章,還有詞云制作张遭,因而要下的包還有蠻多邓萨。
mkdir demo
cd demo
現(xiàn)在我們有一個專用的工作目錄,叫做demo了菊卷。接下來進入demo文件夾缔恳,因為我已經(jīng)創(chuàng)建了,所以如下圖所示洁闰。
在命令行下歉甚,先執(zhí)行:pip install wheel
然后,再執(zhí)行:pip install wordcloud(此包常用于詞云制作扑眉,本文不會用到)
以及:pip install jieba (此包本文不會用到)
接著執(zhí)行:pip install selenium
同樣纸泄,我已經(jīng)全部安裝了,我們需要的全部Python運行環(huán)境也終于裝好了腰素。
請務(wù)必按照上述步驟執(zhí)行聘裁,確保每一步都已經(jīng)順利完成。否則一旦遺漏弓千,后面運行程序會報錯衡便。
二、代碼
在命令行下洋访,執(zhí)行:jupyter notebook
瀏覽器會自動開啟镣陕,并且顯示如下界面。
當然姻政,那個文件不是本來就有的呆抑,這里不管它。這就是咱們剛才的勞動成果——安裝好的運行環(huán)境了扶歪。我還沒有編寫程序理肺。
回到Jupyter筆記本的主頁面。我們點擊New按鈕善镰,新建一個筆記本(Notebook)妹萨。在Notebooks里面,請選擇Python 3選項炫欺。
系統(tǒng)會提示我們輸入Notebook的名稱乎完。程序代碼文件的名稱,你可以隨便起品洛。然后就出現(xiàn)了一個空白的筆記本树姨,供我們使用了。
我起的是今日頭條爬取桥状。
接著進入該ipynb文件帽揪,看到文本框。
如下圖所示辅斟,在文本框里敲入下列代碼转晰。務(wù)必逐字根據(jù)示例代碼輸入,空格數(shù)量都不可以有差別士飒。這與語言特性有關(guān)查邢,一時半會說不完。
這段代碼引入(import)一些庫酵幕,用于存為csv文件扰藕,控制時間,和控制selenium工具芳撒。然后我們定義了一個函數(shù)邓深,用于將文本內(nèi)容寫入CSV文件中。輸入后笔刹,按Shift+Enter鍵庐完,就可以執(zhí)行了。
當然徘熔,沒什么用门躯,因為還沒寫主函數(shù)呢。
然后酷师,分別照下圖鍵入相應(yīng)代碼讶凉。
這段用于打開Chromedriver,即為谷歌瀏覽器驅(qū)動程序山孔。事先要下好存入相應(yīng)目錄 懂讯。
這段則是將URL寫入。
其實就是在今日頭條下搜索“江歌案”出來的頁面的地址台颠。
運行褐望。
如上圖顯示勒庄,Chrome受到selenium的控制,打開了相應(yīng)網(wǎng)頁瘫里,也就得到了該頁面的html文檔实蔽。然后寫入下段代碼嗎,get一下這個頁面谨读。程序會自動打開相應(yīng)頁面局装。
接著是下述內(nèi)容,這里難以全部說清劳殖,簡單的說铐尚,我找到了其中的文章元素,進去抓取了發(fā)布者的id哆姻、發(fā)布時間宣增、文章標題和文章內(nèi)容。并用上面定義的towrite函數(shù)寫入文檔中矛缨。
輸入后统舀,按Shift+Enter鍵,就可以執(zhí)行了劳景。
然后你很快就會發(fā)現(xiàn)桌面出現(xiàn)了一個文檔誉简。
打開一下,可以看到:
最后一條:
轉(zhuǎn)化為txt文件:
三盟广、最后又不是最后
雖然介紹有點長闷串,但其實用不了多久,也就十幾行代碼筋量∨氤常或許會覺得太麻煩了,但如果把上面代碼中range()內(nèi)的數(shù)值改為1000呢桨武,那就可以抓取多少文章下來啊肋拔。
當然,那時也可以換一種框架呀酸。
本來還有后文的凉蜂,也就是用文檔內(nèi)容制作詞云提取關(guān)鍵詞,分析文本中的情感性誉,看人們的情緒如何隨著事件進程變化的(這就是為什么我要爬取發(fā)布時間的原因了)窿吩,然后繪畫一下時間序列上的輿情分布圖表……還想試一試SPSS社會統(tǒng)計學(xué)軟件的作用……
這樣就能知道很多東西了。
不過快要考試了错览。
所以纫雁,只好下次了。
(先放張圖)