詞頻分析是對(duì)文章中重要詞匯出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)與分析,是文本挖掘的重要手段讲仰。它是文獻(xiàn)計(jì)量學(xué)中傳統(tǒng)的和具有代表性的一種內(nèi)容分析方法慕趴,基本原理是通過(guò)詞出現(xiàn)頻次多少的變化,來(lái)確定熱點(diǎn)及其變化趨勢(shì)。
前一陣子有一篇熱文冕房,小學(xué)生用大數(shù)據(jù)分析蘇軾躏啰,說(shuō)的就是清華附小的學(xué)生用詞頻分析方法對(duì)蘇軾的作品進(jìn)行了分析,很多網(wǎng)友解嘲說(shuō)感覺(jué)智商遭到了暴擊耙册,其實(shí)只要有合適的工具誰(shuí)都可以進(jìn)行詞頻分析给僵,下面介紹一個(gè)超強(qiáng)的詞頻分析網(wǎng)站:糖果云網(wǎng)站www.tgyun.cc
糖果云面向個(gè)人及團(tuán)體提供大數(shù)據(jù)存儲(chǔ),大數(shù)據(jù)分析以及大數(shù)據(jù)交易市場(chǎng)服務(wù)详拙。
?糖果云的總體目標(biāo)是建設(shè)一個(gè)分類(lèi)的知識(shí)庫(kù)與數(shù)據(jù)庫(kù)帝际,方便全人類(lèi)的查閱和檢索,提高用戶(hù)對(duì)知識(shí)獲取的速度溪厘,提高了工作效率胡本,和學(xué)習(xí)的進(jìn)度,為推動(dòng)人類(lèi)知識(shí)進(jìn)步做出貢獻(xiàn)畸悬。
下面我們看看糖果網(wǎng)站提供的詞頻統(tǒng)計(jì)功能,下圖是糖果云網(wǎng)站對(duì)紅樓夢(mèng)做出的詞頻統(tǒng)計(jì):
http://www.tgyun.cc/lib/bigtang_紅樓夢(mèng)
從上圖可以看到珊佣,紅樓夢(mèng)中哪個(gè)人物的篇幅最多蹋宦?哪個(gè)人物曹雪芹更注重?這個(gè)統(tǒng)計(jì)就一清二楚了咒锻,我不是紅學(xué)專(zhuān)家冷冗,這個(gè)統(tǒng)計(jì)里應(yīng)該還有很多內(nèi)容可以解說(shuō)。
說(shuō)到小學(xué)生惑艇,就再來(lái)看看小學(xué)生所做的研究蒿辙,用大數(shù)據(jù)來(lái)分析蘇軾:
下圖是糖果云網(wǎng)站對(duì)蘇軾詩(shī)詞作品做出的詞頻統(tǒng)計(jì):http://www.tgyun.cc/lib/user_蘇軾詩(shī)詞全集
詞頻統(tǒng)計(jì)技術(shù)涉及到分詞技術(shù),分詞技術(shù)一般有兩種做法:
一種是維護(hù)一個(gè)大詞庫(kù)滨巴,文章與詞庫(kù)匹配進(jìn)行分詞思灌,這種方法有個(gè)缺點(diǎn),就是需要不停的加入新詞恭取,否則新詞統(tǒng)計(jì)不到泰偿,小學(xué)生的分析文章也提到,子由是一個(gè)新詞蜈垮,現(xiàn)代漢語(yǔ)沒(méi)有叫做子由這個(gè)詞的耗跛,那么蘇軾的詩(shī)詞中為什么這么多子由呢?原來(lái)子由是蘇軾的弟弟攒发!蘇軾弟弟蘇轍字子由调塌, 蘇東波字子瞻。
另一種叫做統(tǒng)計(jì)分詞惠猿,糖果云采用的技術(shù)即為統(tǒng)計(jì)分詞羔砾,可以看到子由是個(gè)新詞,照樣被糖果云統(tǒng)計(jì)到。這種技術(shù)無(wú)需擔(dān)心新詞蜒茄,新詞只要有使用量唉擂,就可以被統(tǒng)計(jì)出來(lái)。
糖果云的詞頻統(tǒng)計(jì)超級(jí)強(qiáng)大檀葛,無(wú)論是一篇文章還是幾個(gè)G的文本玩祟,均可輕松統(tǒng)計(jì)。
那么怎么對(duì)你的文本資料進(jìn)行詞頻統(tǒng)計(jì)呢屿聋?
操作方法:
1 把文章文本資料另存為txt文件空扎;
2 把txt文件壓縮成zip文件;
3 把zip文件上傳到糖果云润讥,之后转锈,就可以在糖果云庫(kù)中查找到該文章及詞頻統(tǒng)計(jì)數(shù)據(jù)了。