前言: 數(shù)據(jù)挖掘這門課的大作業(yè)是上交一份數(shù)據(jù)挖掘的案例.于是乎我決定對比分析一下小鶴音形和正常全拼的碼表.
首先是小鶴雙拼的碼表分析轉(zhuǎn)換
- 概況
查看行數(shù)和字符數(shù),bash命令
wc -l xhupdict # 查看行數(shù)
wc -c xhupdict #查看總的字符數(shù)
- 簡單處理
經(jīng)觀察發(fā)現(xiàn)小鶴的碼表組織使用的是tab制表符,所以可以用以下命令并導出純凈的詞庫.
cut -f1 xhupdict > pureChineseVocabularyOfXhup.txt # 導出目標詞匯
#關(guān)于如何知道是不是制表符組織的,或者想查看文本的特殊字符可以使用下列命令
sed -n l xhupdict|more #如果文本太長,記得使用管道結(jié)合more命令查看,不然滿屏的輸出是在毫無意義
查看冗余的行
sed -n '1,10'p pureChineseVocabularyOfXhup.txt
sed '1,12'd pureChineseVocabularyOfXhup.txt
#突然發(fā)現(xiàn)這個sed命令的刪除只是在輸出顯示的刪除不是對文本的實際操作
#那試試用它的替換操作
sed '1,12s/.*//g' pureChineseVocabularyOfXhup.txt #終于成功刪除了前幾行,但是總是只在輸出生效.使用重定向就可以了
#再或者直接打開 vim 一個命令 12dd 廢行就煙消云散了
#還是使用vim更加便捷無論是使用替換命令還是按鍵剪切命令都比sed好用.如果不用重定向,感覺sed更適合抽樣觀察,或者說sed是一種探針,用于查看文本的細節(jié)便于我們決定使用什么樣的手段去處理文本
效果如圖: sed對于這種文本真是小菜一碟,根本犯不著上python
同理分離編碼部分
cut -f2 xhupdict >pureEncodingOfXhup.txt
- 文本深加工
且擱筆