OpenCC - 簡(jiǎn)體繁體轉(zhuǎn)換

最近使用中文維基百科數(shù)據(jù)訓(xùn)練Word2Vec時(shí)暇韧,發(fā)現(xiàn)數(shù)據(jù)里面包含了很多繁體字,這就很尷尬了浓瞪。這時(shí)候就知道OpenCC的強(qiáng)大了懈玻。哈哈,本來(lái)打算直接使用python里面的opencc模塊的乾颁,但是在安裝涂乌,編譯opencc時(shí)遇到了各種錯(cuò)誤∮⒘耄花費(fèi)了很長(zhǎng)時(shí)間湾盒,終于安裝成功,但是文本處理起來(lái)效率很低诅妹。最終選擇了直接在linux下安裝OpenCC罚勾,處理的效率著實(shí)安慰了我受傷的心 -- 很快,特別快吭狡。
好啦荧库,接下來(lái)總結(jié)下OpenCC的安裝方法,萬(wàn)一以后又用到它了呢赵刑?主要參考這篇博客

  • 檢查下linux環(huán)境下是否已經(jīng)安裝cmake以及git分衫,如果沒(méi)有,那就通過(guò)yum安裝好般此。
$ yum install cmake
$ yum install git
$ git clone https://github.com/BYVoid/OpenCC
  • 編譯OpenCC
$ cd OpenCC
$ make
$ make install
  • 創(chuàng)建libopencc.so.2鏈接

如果不知道libopencc.so.2的路徑,可以通過(guò)find / -name libopencc.so.2查找铐懊。

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
  • 通過(guò)查看 OpenCC 版本邀桑,檢查OpenCC是否已經(jīng)安裝成功
$ opencc --version
  • 測(cè)試用例
# 繁體轉(zhuǎn)簡(jiǎn)體
$ echo '歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家' | opencc -c t2s
歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家
# 簡(jiǎn)體轉(zhuǎn)繁體
$ echo '歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家' | opencc -c s2t
歐幾里得 西元前三世紀(jì)的希臘數(shù)學(xué)家
# 可以通過(guò)以下方式直接對(duì)文件進(jìn)行繁簡(jiǎn)轉(zhuǎn)換
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市科乎,隨后出現(xiàn)的幾起案子壁畸,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捏萍,死亡現(xiàn)場(chǎng)離奇詭異太抓,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)令杈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)走敌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人逗噩,你說(shuō)我怎么就攤上這事掉丽。” “怎么了异雁?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵捶障,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我纲刀,道長(zhǎng)残邀,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任柑蛇,我火速辦了婚禮,結(jié)果婚禮上驱闷,老公的妹妹穿的比我還像新娘耻台。我一直安慰自己,他們只是感情好空另,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布盆耽。 她就那樣靜靜地躺著,像睡著了一般扼菠。 火紅的嫁衣襯著肌膚如雪摄杂。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天循榆,我揣著相機(jī)與錄音析恢,去河邊找鬼。 笑死秧饮,一個(gè)胖子當(dāng)著我的面吹牛映挂,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播盗尸,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼柑船,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了泼各?” 一聲冷哼從身側(cè)響起鞍时,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后逆巍,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體及塘,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年蒸苇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了磷蛹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡溪烤,死狀恐怖味咳,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情檬嘀,我是刑警寧澤槽驶,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站鸳兽,受9級(jí)特大地震影響掂铐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜揍异,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一全陨、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧衷掷,春花似錦辱姨、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至懦胞,卻和暖如春替久,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背躏尉。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工蚯根, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人胀糜。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓稼锅,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親僚纷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子矩距,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 【MySQL】Linux下MySQL 5.5、5.6和5.7的RPM哮肚、二進(jìn)制和源碼安裝 1.1BLOG文檔結(jié)構(gòu)圖 ...
    小麥苗DB寶閱讀 10,540評(píng)論 0 31
  • 周一早上 前百度 的leader 問(wèn)我 周日發(fā)在群里的 說(shuō)什么在測(cè)試機(jī)安裝好了 paddle 是什么登夫,我說(shuō)就是...
    Helen_Cat閱讀 1,216評(píng)論 0 1
  • 其中本文命令錯(cuò)誤請(qǐng)查看是否命令中有— 有則改為雙橫線,其中某些符號(hào)會(huì)因?yàn)榫庉嬑谋径杏⑥D(zhuǎn)換允趟,遇到相應(yīng)問(wèn)題請(qǐng)自行轉(zhuǎn)換...
    風(fēng)雨byt閱讀 15,962評(píng)論 4 7
  • 北京今天早上下了第一場(chǎng)雪恼策,風(fēng)好大,好冷~~
    蘇麥的夏天閱讀 152評(píng)論 0 0
  • 導(dǎo)讀:大家每天在網(wǎng)上看別人的新聞潮剪,讀馬云涣楷、雷軍這些大佬的創(chuàng)業(yè)故事……其實(shí),他們距離99%的中小型企業(yè)創(chuàng)業(yè)者來(lái)講抗碰,距...
    靜888閱讀 1,174評(píng)論 0 3