linux中文編碼問題總結(jié)

在linux上處理中文的時候闲昭，特別是自然語言這種頻繁讀寫中文到文件的情況糠赦，經(jīng)常會出錯荐吵，下面梳理總結(jié)一下菠秒。常用相關(guān)編碼有：文件編碼，文件內(nèi)容編碼戒突，終端編碼屯碴，標(biāo)準(zhǔn)輸入輸出流編碼，操作系統(tǒng)編碼膊存。

常出問題的是文件編碼與文件內(nèi)容編碼导而，有時候這兩個不一致會導(dǎo)致導(dǎo)入時，解碼出錯隔崎，可用vim設(shè)置:set fileencoding=xxx修改文件編碼今艺。對于批量文件編碼修改，可用convmv工具(非系統(tǒng)自帶爵卒，一般需要安裝)

導(dǎo)致文件編碼與文件內(nèi)容編碼不一致的原因：

在數(shù)據(jù)流寫入文件時虚缎，會從fileencodings去逐個讀取，如果發(fā)現(xiàn)某個編碼能正常解析當(dāng)前文件流钓株，即當(dāng)作該編碼实牡，設(shè)置文件編碼為這個編碼；如果沒有找到合適的編碼轴合，那么文件編碼就會被設(shè)置為空创坞。在寫文件的時候，經(jīng)常會因為沒有設(shè)置fileencodings變量受葛，而導(dǎo)致文件編碼為空题涨。

解決辦法是：在寫入文件，如用iconv轉(zhuǎn)碼時总滩，先set fileencodings=xxx,xxxx 携栋，在操作寫入文件，這能從根本上解決問題咳秉。

問題影響：文件編碼和文件內(nèi)容編碼不一致，會導(dǎo)致在文件處理的時候解析異常鸯隅。比如用python處理中文澜建，讀取文件時，會默認(rèn)以fileencoding的編碼打開蝌以，如果這個編碼不對炕舵，在腳本中，要decode的時候就會掛掉跟畅，即便文件內(nèi)容的編碼是正確的咽筋。如：文件內(nèi)容編碼是utf-8，而文件編碼是gb18030徊件，python以gb18030打開文件奸攻，這時候蒜危，文件內(nèi)容已經(jīng)編碼異常了。睹耐。然后用decode('utf-8')時辐赞，拋出UnicodeDecodeError，接著一臉蒙x硝训。响委。

下面總結(jié)下常用的轉(zhuǎn)碼方式：

文件內(nèi)容編碼用iconv 轉(zhuǎn)碼即可，用法就是iconv -f [原編碼] -t [目標(biāo)編碼] file -o outfile 窖梁。需要注意的時赘风，有時候文件里會有個別編碼錯誤的字節(jié)，導(dǎo)致后續(xù)內(nèi)容轉(zhuǎn)碼失敗纵刘，對這種情況邀窃，只要加上-c參數(shù)即可，也就是iconv -f [原編碼] -t [目標(biāo)編碼] -c file -o outfile

查看文件編碼彰导，可以用file命令蛔翅，加參數(shù)-bi可獲得更精確的編碼，但是file查看的編碼經(jīng)常不準(zhǔn)確位谋，注意此坑山析。對應(yīng)單個的也可以用vim的encoding命令查看

操作系統(tǒng)編碼看環(huán)境變量LANG

在用python處理文件時，統(tǒng)一用unicode編碼處理掏父。對于字符串笋轨，從文件讀入內(nèi)存時，會先按照文件編碼轉(zhuǎn)到標(biāo)準(zhǔn)輸入流編碼赊淑，所以處理中文字符串時爵政，可用str.decode(sys.stdin.encoding)解碼到Unicode，可解決中文字符串的編碼問題

中文顯示異常問題：

經(jīng)常在用vim打開文件時陶缺，中文會亂碼钾挟，導(dǎo)致文件亂碼的一般是文件編碼，文件內(nèi)容編碼饱岸，vim編碼掺出，iterm/scurecrt/其他終端的編碼不一致，把這三個編碼修改成一樣的就可以了

當(dāng)然苫费，這么復(fù)雜的工序汤锨，很多同學(xué)都蒙了，人民群眾的力量是無窮的百框，需求就是用來解決的闲礼，這不，有個傳說中的工具enca，可以智能識別編碼柬泽，以及批量編碼轉(zhuǎn)化慎菲，具體使用，可以查找相關(guān)wiki或博客聂抢，有很多介紹钧嘶。。琳疏。不有决。過。作為有g(shù)eek基因的青年空盼，少了折騰书幕，心里怎么會爽，因此不用這種工具揽趾，是上策（用原始方法能更深入理解操作系統(tǒng)編碼的原理台汇，又能解決問題，又能漲姿勢篱瞎，多好~）

最后編輯于：2017.12.06 06:59:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末苟呐，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子俐筋，更是在濱河造成了極大的恐慌牵素，老刑警劉巖，帶你破解...
沈念sama閱讀 206,311評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件澄者，死亡現(xiàn)場離奇詭異笆呆，居然都是意外死亡，警方通過查閱死者的電腦和手機粱挡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,339評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門赠幕，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人询筏，你說我怎么就攤上這事榕堰。” “怎么了嫌套？”我有些...
開封第一講書人閱讀 152,671評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵局冰，是天一觀的道長。經(jīng)常有香客問我灌危，道長，這世上最難降的妖魔是什么碳胳？我笑而不...
開封第一講書人閱讀 55,252評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任勇蝙，我火速辦了婚禮，結(jié)果婚禮上挨约，老公的妹妹穿的比我還像新娘味混。我一直安慰自己产雹，他們只是感情好，可當(dāng)我...
茶點故事閱讀 64,253評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布翁锡。她就那樣靜靜地躺著蔓挖，像睡著了一般。火紅的嫁衣襯著肌膚如雪馆衔。梳的紋絲不亂的頭發(fā)上瘟判，一...
開封第一講書人閱讀 49,031評論 1贊 285
城市分裂傳說
那天，我揣著相機與錄音角溃，去河邊找鬼拷获。笑死，一個胖子當(dāng)著我的面吹牛减细，可吹牛的內(nèi)容都是我干的匆瓜。我是一名探鬼主播，決...
沈念sama閱讀 38,340評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼未蝌，長吁一口氣：“原來是場噩夢啊……” “哼驮吱！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起萧吠，我...
開封第一講書人閱讀 36,973評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤左冬，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后怎憋，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體又碌，經(jīng)...
沈念sama閱讀 43,466評論 1贊 300
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,937評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年绊袋，在試婚紗的時候發(fā)現(xiàn)自己被綠了毕匀。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,039評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡癌别，死狀恐怖皂岔，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情展姐，我是刑警寧澤躁垛，帶...
沈念sama閱讀 33,701評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站圾笨，受9級特大地震影響教馆，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜擂达，卻給世界環(huán)境...
茶點故事閱讀 39,254評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一土铺、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦悲敷、人聲如沸究恤。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,259評論 0贊 19
一樁弒父案后德，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽部宿。三九已至，卻和暖如春瓢湃，著一層夾襖步出監(jiān)牢的瞬間理张，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,485評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工箱季，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留涯穷，地道東北人。一個月前我還...
沈念sama閱讀 45,497評論 2贊 354
代替公主和親
正文我出身青樓藏雏，卻偏偏與公主長得像拷况，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子掘殴，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,786評論 2贊 345

linux中文編碼問題總結(jié)

推薦閱讀更多精彩內(nèi)容