小鶴雙拼詞庫分析

前言: 數(shù)據(jù)挖掘這門課的大作業(yè)是上交一份數(shù)據(jù)挖掘的案例.于是乎我決定對比分析一下小鶴音形和正常全拼的碼表.
首先是小鶴雙拼的碼表分析轉(zhuǎn)換

  1. 概況
    查看行數(shù)和字符數(shù),bash命令
wc -l xhupdict # 查看行數(shù)
wc -c xhupdict #查看總的字符數(shù)
小鶴的碼表數(shù)量統(tǒng)計

碼表的一瞥
  1. 簡單處理
    經(jīng)觀察發(fā)現(xiàn)小鶴的碼表組織使用的是tab制表符,所以可以用以下命令并導出純凈的詞庫.
cut -f1 xhupdict > pureChineseVocabularyOfXhup.txt  # 導出目標詞匯
#關(guān)于如何知道是不是制表符組織的,或者想查看文本的特殊字符可以使用下列命令
sed -n l xhupdict|more #如果文本太長,記得使用管道結(jié)合more命令查看,不然滿屏的輸出是在毫無意義
導出的目標詞匯

sed命令查看文本組織方式

查看冗余的行

sed -n '1,10'p pureChineseVocabularyOfXhup.txt 
sed '1,12'd pureChineseVocabularyOfXhup.txt 
#突然發(fā)現(xiàn)這個sed命令的刪除只是在輸出顯示的刪除不是對文本的實際操作
#那試試用它的替換操作
sed '1,12s/.*//g' pureChineseVocabularyOfXhup.txt  #終于成功刪除了前幾行,但是總是只在輸出生效.使用重定向就可以了
#再或者直接打開 vim 一個命令 12dd 廢行就煙消云散了
#還是使用vim更加便捷無論是使用替換命令還是按鍵剪切命令都比sed好用.如果不用重定向,感覺sed更適合抽樣觀察,或者說sed是一種探針,用于查看文本的細節(jié)便于我們決定使用什么樣的手段去處理文本

效果如圖: sed對于這種文本真是小菜一碟,根本犯不著上python


刪除冗余行的效果

同理分離編碼部分

cut -f2 xhupdict >pureEncodingOfXhup.txt 
分離后當前目錄文件列表
  1. 文本深加工
    且擱筆
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末魔种,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蜕乡,更是在濱河造成了極大的恐慌馏慨,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件错洁,死亡現(xiàn)場離奇詭異映穗,居然都是意外死亡荆烈,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進店門裸燎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來顾瞻,“玉大人,你說我怎么就攤上這事德绿『苫纾” “怎么了?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵移稳,是天一觀的道長蕴纳。 經(jīng)常有香客問我,道長个粱,這世上最難降的妖魔是什么古毛? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮几蜻,結(jié)果婚禮上喇潘,老公的妹妹穿的比我還像新娘体斩。我一直安慰自己梭稚,他們只是感情好,可當我...
    茶點故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布絮吵。 她就那樣靜靜地躺著弧烤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蹬敲。 梳的紋絲不亂的頭發(fā)上暇昂,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天,我揣著相機與錄音伴嗡,去河邊找鬼急波。 笑死,一個胖子當著我的面吹牛瘪校,可吹牛的內(nèi)容都是我干的澄暮。 我是一名探鬼主播,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼阱扬,長吁一口氣:“原來是場噩夢啊……” “哼泣懊!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起麻惶,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤馍刮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后窃蹋,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卡啰,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡静稻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了匈辱。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姊扔。...
    茶點故事閱讀 39,754評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖梅誓,靈堂內(nèi)的尸體忽然破棺而出恰梢,到底是詐尸還是另有隱情,我是刑警寧澤梗掰,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布嵌言,位于F島的核電站,受9級特大地震影響及穗,放射性物質(zhì)發(fā)生泄漏摧茴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一埂陆、第九天 我趴在偏房一處隱蔽的房頂上張望苛白。 院中可真熱鬧,春花似錦焚虱、人聲如沸购裙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽躏率。三九已至,卻和暖如春民鼓,著一層夾襖步出監(jiān)牢的瞬間薇芝,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工丰嘉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留夯到,地道東北人。 一個月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓饮亏,卻偏偏與公主長得像耍贾,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子克滴,可洞房花燭夜當晚...
    茶點故事閱讀 44,654評論 2 354

推薦閱讀更多精彩內(nèi)容

  • linux資料總章2.1 1.0寫的不好抱歉 但是2.0已經(jīng)改了很多 但是錯誤還是無法避免 以后資料會慢慢更新 大...
    數(shù)據(jù)革命閱讀 12,160評論 2 33
  • 在我的2017年目標一文中提到的其中一個年度目標就是學習雙拼輸入法逼争。那學習雙拼輸入法首先要選擇的就是一套雙拼方案,...
    keyboard_dancer閱讀 28,689評論 10 35
  • 輸入法是使用頻率較高的一種生產(chǎn)力工具劝赔,什么是生產(chǎn)力工具呢誓焦?英語叫做productivity tool,生產(chǎn)力工具就...
    lemonTreeTop閱讀 4,053評論 1 14
  • sed與awk實例 文本間隔 在每一行后面增加一空行 將原來的所有空行刪除并在每一行后面增加一空行。這樣在輸出的文...
    stuha閱讀 1,897評論 0 21
  • 基礎命令 主要的命令和快捷鍵 Linux系統(tǒng)命令由三部分組成:cmd + [options]+[operation...
    485b1aca799e閱讀 1,095評論 0 0