利用簡(jiǎn)書首頁(yè)文章標(biāo)題數(shù)據(jù)生成詞云

1.詞云圖

詞云圖,也叫文字云鼠冕,是對(duì)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺化的展現(xiàn)灾前,詞云圖過濾掉大量的低頻低質(zhì)的文本信息,使得瀏覽者只要一眼掃過文本就可領(lǐng)略文本的主旨珠月。

  • 先看幾個(gè)詞云圖


    簡(jiǎn)書簽約作者標(biāo)簽詞云
全國(guó)政協(xié)常委會(huì)工作報(bào)告詞云圖

2.推薦幾個(gè)不錯(cuò)的詞云圖工具

Tagul云可以自定義字體扩淀、詞云的形狀(有愛心、BUS啤挎、雪人驻谆、人像卵凑、UFO等),顏色等胜臊,做出來的詞云圖很酷炫勺卢,為網(wǎng)站訪問者提供良好的用戶體驗(yàn)。用戶可以在網(wǎng)站做好詞云圖象对,然后印在衣服黑忱、杯子、鼠標(biāo)墊等地方勒魔,自己設(shè)計(jì)身邊的物件甫煞,感覺很有成就感,很實(shí)用的網(wǎng)站冠绢。
這款國(guó)內(nèi)的在線詞頻分析工具抚吠,在長(zhǎng)文本自動(dòng)分詞并制作詞云方面還是很出眾的,而且也容易上手唐全,還可以自定義定制圖形模板:標(biāo)準(zhǔn)埃跷、微信、地圖等邮利,切換自如弥雹,用起來體驗(yàn)很不錯(cuò)。
這是一款數(shù)據(jù)可視化工具延届,除了詞云剪勿,還有很多其他酷炫的圖表,如GIS地圖方庭、漏斗圖厕吉、瀑布圖、尚的睿基圖等头朱,來了解它們的詞云。工具很容易上手龄减,直接把詞語(yǔ)這個(gè)數(shù)據(jù)拉到維度欄项钮,再選擇詞云就瞬間呈現(xiàn)詞云圖表,BDP會(huì)自動(dòng)算好詞頻希停,你可以設(shè)置顏色烁巫,快速實(shí)現(xiàn)詞云可視化,特別簡(jiǎn)單宠能。
  • Python的擴(kuò)展包wordcloud也可構(gòu)建詞云亚隙。
    • 安裝命令
#安裝詞云
pip install wordcloud

#安裝jieba分詞
pip install jieba

1、引入模塊

from wordcloud import WordCloud
import matplotlib.pyplot as plt

2违崇、實(shí)例化一個(gè)詞云

wc = WordCloud()

3阿弃、導(dǎo)入文本

text = open(r"222.txt",encoding='utf-8').read()

4诊霹、生成詞云

wc.generate(text)

5、顯示詞云

plt.imshow(wc)
#導(dǎo)入python畫圖的庫(kù)恤浪,詞云生成庫(kù)和jieba的分詞庫(kù)
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba

#讀取txt格式的文本內(nèi)容
text_from_file_with_apath = open('JsIndex.txt').read()

#使用jieba進(jìn)行分詞畅哑,并對(duì)分詞的結(jié)果以空格隔開
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)

#對(duì)分詞后的文本生成詞云
my_wordcloud = WordCloud().generate(wl_space_split)

#用pyplot展示詞云圖。
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

入門可以參考博客python詞云 wordcloud 入門水由,安裝的時(shí)候建議使用依賴包安裝荠呐,我用命令安裝了幾次一直超時(shí)失敗。

3.爬取數(shù)據(jù)砂客,制作詞云圖

1.爬取簡(jiǎn)書首頁(yè)推薦文章標(biāo)題

  • 分析網(wǎng)頁(yè)結(jié)構(gòu)通過Xpath篩選我們想要的數(shù)據(jù)有兩種方法
    通過谷歌商店的Xpath工具分析結(jié)構(gòu)得到我們想要的數(shù)據(jù)
直接復(fù)制title的xpath泥张,不過我們只能得到這一條數(shù)據(jù),所以還要修改
  • 編寫代碼
#-*- coding:utf-8 -*-

#creater 簡(jiǎn)書-_知幾 2017.8.26

import urllib,urllib2,re
from lxml import etree

class CrawlJs:
    #定義函數(shù)鞠值,爬取對(duì)應(yīng)的數(shù)據(jù)
    def getArticle(self,url):
        print '█████████████◣開始爬取數(shù)據(jù)'
        my_headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
        }
        request = urllib2.Request(url,headers=my_headers)
        content = urllib2.urlopen(request).read()
        return content

    #定義函數(shù)媚创,篩選和保存爬取到的數(shù)據(jù)
    def save(self,content):
        xml = etree.HTML(content)
        datas = xml.xpath('//div[@class="content"]/a/text()')
        print datas
        for data in datas:
            print data
            with open('JsIndex.txt','a+') as f:
                f.write(data.encode('utf-8')+ '\n')
        print '█████████████◣爬取完成!'

#定義主程序接口
if __name__ == '__main__':
    url = 'http://www.reibang.com/'
    js = CrawlJs()
    content = js.getArticle(url)
    js.save(content)
得到我們的數(shù)據(jù)

2.制作詞云圖

  • 工具 我使用的是TAGUL 一款在線詞云制作工具彤恶,簡(jiǎn)單易上手钞钙,缺點(diǎn)只能分詞英文,需要導(dǎo)入中文字體声离。

操作:

  • Import words , 可以直接粘貼導(dǎo)入文本數(shù)據(jù)芒炼,或者以web url的方式導(dǎo)入。文本數(shù)據(jù)包括關(guān)鍵詞和size术徊。
  • 選擇形狀shapes -- 也可自定義形狀圖片
    TAGUL提供了一些模板圖形本刽,左邊是分類主題。
  • 分詞技術(shù)
    推薦兩個(gè)分詞工具赠涮,一個(gè)是在線分詞工具 基于深度學(xué)習(xí)的中文在線抽詞-PullWord子寓,另一個(gè)是結(jié)巴分詞(jieba)。
簡(jiǎn)書首頁(yè)推薦文章標(biāo)題詞云圖
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末笋除,一起剝皮案震驚了整個(gè)濱河市斜友,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌垃它,老刑警劉巖蝙寨,帶你破解...
    沈念sama閱讀 216,692評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異嗤瞎,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)听系,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門贝奇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人靠胜,你說我怎么就攤上這事掉瞳”显矗” “怎么了?”我有些...
    開封第一講書人閱讀 162,995評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵陕习,是天一觀的道長(zhǎng)霎褐。 經(jīng)常有香客問我,道長(zhǎng)该镣,這世上最難降的妖魔是什么冻璃? 我笑而不...
    開封第一講書人閱讀 58,223評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮省艳,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘嫁审。我一直安慰自己跋炕,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評(píng)論 6 388
  • 文/花漫 我一把揭開白布律适。 她就那樣靜靜地躺著辐烂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪捂贿。 梳的紋絲不亂的頭發(fā)上纠修,一...
    開封第一講書人閱讀 51,208評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音眷蜓,去河邊找鬼分瘾。 笑死,一個(gè)胖子當(dāng)著我的面吹牛吁系,可吹牛的內(nèi)容都是我干的德召。 我是一名探鬼主播,決...
    沈念sama閱讀 40,091評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼汽纤,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼上岗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蕴坪,我...
    開封第一講書人閱讀 38,929評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤肴掷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后背传,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體呆瞻,經(jīng)...
    沈念sama閱讀 45,346評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評(píng)論 2 333
  • 正文 我和宋清朗相戀三年径玖,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了痴脾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,739評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡梳星,死狀恐怖赞赖,靈堂內(nèi)的尸體忽然破棺而出滚朵,到底是詐尸還是另有隱情,我是刑警寧澤前域,帶...
    沈念sama閱讀 35,437評(píng)論 5 344
  • 正文 年R本政府宣布辕近,位于F島的核電站,受9級(jí)特大地震影響匿垄,放射性物質(zhì)發(fā)生泄漏移宅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評(píng)論 3 326
  • 文/蒙蒙 一年堆、第九天 我趴在偏房一處隱蔽的房頂上張望吞杭。 院中可真熱鬧,春花似錦变丧、人聲如沸芽狗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)童擎。三九已至,卻和暖如春攻晒,著一層夾襖步出監(jiān)牢的瞬間顾复,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工鲁捏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留芯砸,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,760評(píng)論 2 369
  • 正文 我出身青樓给梅,卻偏偏與公主長(zhǎng)得像假丧,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子动羽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容