近日研究爬蟲忌穿,于是閑著無聊爬了一下古詩文網(wǎng),有了數(shù)據(jù)索性再來分析一波。目標(biāo)選定了曾國藩家書
首先使用jieba
分詞對(duì)其進(jìn)行分詞跃洛,分詞后使用wordcloud
生出詞云,看一下那些詞使用的最多
wordcloud.png
擁有哪些信息呢?
- 作為家書了镜撩,提到最多的當(dāng)然是家人啦: 叔父、祖父母队塘、弟兄袁梗,由于關(guān)心家里情況
家中
這個(gè)詞的出現(xiàn)頻率也很高 - 時(shí)間: 四月、八月憔古、九月遮怜、正月等,家書中落款需要寫時(shí)間鸿市,所以出現(xiàn)月份的頻率較高锯梁,但是同樣是月份有的月份出現(xiàn)的頻率高,有的出現(xiàn)的頻率低焰情,那說明啥呢陌凳, 說明出現(xiàn)頻率高的月份寫的信就多啦,那也可以思考一下烙样,曾國藩沒有寫信的那段時(shí)間是在干嘛冯遂,也許比較忙,也許回家了谒获,總之曾國藩的信沒有像新聞聯(lián)播那么準(zhǔn)時(shí)蛤肌。
- 盡顯老大哥的風(fēng)范:作為家長長子,寫的信滿滿的都是
不可
批狱,不知
裸准,不能
,不必
赔硫,哎呀簡直是這也不可以那也不可以啊 - 勸學(xué): 大大的
讀書
兩個(gè)字炒俱,放佛在告訴我們,學(xué)霸的弟弟不想當(dāng)學(xué)霸都難啊爪膊。
好了再看一下曾國藩提及最多的是誰权悟?
這里專對(duì)書中出現(xiàn)的人名進(jìn)行統(tǒng)計(jì)。
name第一版沒有加載自定義詞典.png
果然兄弟情深推盛,國藩
和 諸弟
出現(xiàn)的是最多的峦阁,在加上各種各樣的其他弟弟更加不得了了,不過這里也出現(xiàn)了一些問題: 比如 萬福金安
顯然是個(gè)問候語耘成, 金陵
應(yīng)該是個(gè)地名榔昔, 高麗參
是一種人參之類的藥物驹闰,顯然分詞不夠準(zhǔn)確, 于是改進(jìn)一下撒会。
name.png
這些好多了嘹朗,比之前的更加合理。這里馮樹堂
出現(xiàn)的頻率居然如此之高诵肛,害得我趕緊查一下到底是何許人也屹培,居然在曾國藩的心中占有如此重要的位置,
待解決的問題
對(duì)于人名的解析不夠準(zhǔn)確曾掂,主要是信中會(huì)出現(xiàn)代詞之類惫谤,比如: 余
,汝
等,只是簡單的對(duì)名字進(jìn)行解析無法真實(shí)反應(yīng)其出現(xiàn)的頻率珠洗,需要進(jìn)一步的解決這個(gè)問題