Scrapy爬蟲教程一 Windows下安裝Scrapy的方式和問題總結(jié)
Scrapy爬蟲教程二 淺析最煩人的反爬蟲手段
Scrapy爬蟲教程三 詳細(xì)的Python Scrapy模擬登錄知乎
Scrapy爬蟲教程四 Scrapy+Selenium有瀏覽器界面模擬登錄知乎
Scrapy爬蟲教程五 爬蟲部署
要說最近大火的影視劇當(dāng)中<<獵場(chǎng)>>無疑是這其中之一吧,我也一直在追劇中...由于這階段正好趕上在學(xué)習(xí)selenium來操作瀏覽器爬取數(shù)據(jù),所以就爬取了豆瓣中對(duì)<<獵場(chǎng)>>的短評(píng)內(nèi)容并生成了詞云。
下面簡(jiǎn)短的介紹一下這次生成詞云的環(huán)境以及使用的庫:
1.Python 3.6.1
2.selenium 3.7.0 這是一個(gè)可以操作瀏覽器的庫宪哩,模擬真實(shí)人的操作(包括點(diǎn)擊按鈕等操作)韧骗,還可以抓取動(dòng)態(tài)頁面(js生成的頁面)
3.wordcloud 1.3.2 生成詞云的模塊
4.jieba 0.39 很好的中文分詞庫瞎饲,功能強(qiáng)大并使用簡(jiǎn)單,由于wordcloud對(duì)于分詞是弱勢(shì)权旷,所以借助jieba來進(jìn)行分詞
生成詞云的流程:
? ? 1.使用selenium抓取<<獵場(chǎng)>>短評(píng)(前十頁短評(píng))色洞,并將每一條短評(píng)存到.txt文件中(其實(shí)第一步應(yīng)該進(jìn)行登錄操作的戏锹,但是限于公司網(wǎng)絡(luò)原因又或者是豆瓣服務(wù)器原因,導(dǎo)致我這邊獲取二維碼的接口調(diào)不通火诸,所以這里我就不登錄景用,直接獲取十頁的數(shù)據(jù)(不登陸只能獲取十頁的數(shù)據(jù)),但是下邊我也會(huì)附上使用selenium登錄的代碼)
? ? 2.使用jieba對(duì)爬取下來的短評(píng)進(jìn)行分詞惭蹂,將分詞存入新的文本
? ? 3.使用wordcloud對(duì)分詞生成詞云(由于我這里只爬取了十頁的短評(píng),所以進(jìn)行分詞得到的詞比較少割粮,這里我就沒有對(duì)分此后得到的數(shù)據(jù)進(jìn)行生成詞云盾碗,而是直接對(duì)十頁的短評(píng)生成的詞云,這樣生成的詞云效果比較好)
下邊就附上代碼舀瓢,要好好的手敲代碼廷雅,所以這里直接附圖:
最后附上生成的詞云:
這篇博客只是熟悉和使用selenium進(jìn)行抓取數(shù)據(jù),好了該吃午飯了京髓。