想必你會(huì)有這樣的需求:知道一篇文章或者一本書(shū)中哪些詞匯出現(xiàn)的頻率最高。你可能認(rèn)為這需要什么復(fù)雜的付費(fèi)軟件甚至寫(xiě)程序携取,其實(shí)不然,有個(gè)特別簡(jiǎn)單的在線詞頻分析工具帮孔。
閑話少說(shuō)雷滋,直接上網(wǎng)址:
這是教育部語(yǔ)言文字應(yīng)用研究所計(jì)算語(yǔ)言學(xué)研究室開(kāi)發(fā)的“語(yǔ)料庫(kù)在線”。這個(gè)網(wǎng)站有一項(xiàng)功能就是詞頻分析文兢。下面我以分析文本《阿Q正傳》為例晤斩,介紹一下該網(wǎng)站如何使用。
1.打開(kāi)網(wǎng)站姆坚,左側(cè)的導(dǎo)航欄有“語(yǔ)料分析處理”澳泵,其中有“字詞頻率統(tǒng)計(jì)”:
2.點(diǎn)擊“字詞頻率統(tǒng)計(jì)”,注意此處一次最多可分析10萬(wàn)字兼呵,如果超過(guò)這個(gè)字?jǐn)?shù)兔辅,可以分多次處理:
3.《阿Q正傳》大約一萬(wàn)多字,從word里復(fù)制粘貼進(jìn)去:
4.點(diǎn)擊右側(cè)的“詞頻統(tǒng)計(jì)”击喂,即可立刻得出結(jié)果:
5.統(tǒng)計(jì)結(jié)果可以導(dǎo)出txt维苔,然后復(fù)制到excel里做進(jìn)一步的分析。需要注意的是懂昂,導(dǎo)出的結(jié)果會(huì)出現(xiàn)下面這種錯(cuò)位情況介时,需要在excel做調(diào)整,好在錯(cuò)誤只占少數(shù):
《阿Q正傳》的統(tǒng)計(jì)結(jié)果一共是2948個(gè)字詞及符號(hào)凌彬,此處“出現(xiàn)頻率”的單位是百分比(%):
排在第一的文字是“的”沸柔,出現(xiàn)了712次,占了全文的4.4453%铲敛。對(duì)不對(duì)呢褐澎?我們?cè)谠牡膚ord里核實(shí)一下:
在word里,查找出了747個(gè)“的”原探,比上面的統(tǒng)計(jì)結(jié)果多出了35個(gè)乱凿,這是為什么呢?
原因很簡(jiǎn)單咽弦,有些“的”被切進(jìn)了其他詞徒蟆,比如“似的”“別的”“的確”等等,加在一起正好是747個(gè)型型,一個(gè)都不少段审。
不過(guò),這個(gè)工具的確有不完善之處闹蒜,比如同一個(gè)詞重復(fù)出現(xiàn)寺枉,或者被切錯(cuò)抑淫,因此使用時(shí)一定要在excel里篩選一下。
如上圖所示姥闪,“趙”“趙家”“趙司”都重復(fù)出現(xiàn)了始苇,而且“趙家”還出現(xiàn)在了“連趙家”里,核實(shí)一下word筐喳,“趙家”一詞確實(shí)出現(xiàn)了11次催式。
不過(guò)這個(gè)不完善之處并不妨礙使用,這個(gè)工具畢竟可以提供一個(gè)比較可靠的線索避归,準(zhǔn)確的數(shù)據(jù)還需要在excel里仔細(xì)統(tǒng)計(jì)荣月。
我們來(lái)看下迅翁在《阿Q正傳》里最喜歡用哪些字詞。
單字:
這20個(gè)單字加在一起一共出現(xiàn)了5118次梳毙,占了全文的31.95%哺窄!
詞匯:
“阿Q”在語(yǔ)料庫(kù)里并不是一個(gè)詞,所以沒(méi)被切出账锹,該詞在文章中出現(xiàn)了274次萌业,應(yīng)該位居第一。
從結(jié)果來(lái)看牌废,迅翁和大家一樣咽白,很喜歡用口語(yǔ)化的詞,在一篇一萬(wàn)多字的文章中就用了45次“因?yàn)椤蹦衤疲昧?5次“而且”晶框!但是迅翁就是迅翁,這些普通的詞在他的筆下出神入化懂从,構(gòu)成了文學(xué)經(jīng)典授段。
大家如有興趣,不妨去試一試這個(gè)工具番甩。