編碼問題的總結(jié)

查看文件編碼

在Linux中查看文件編碼可以通 過以下幾種方式:

1.在Vim中可以直接查看文件編碼

:set fileencoding

即可顯示文件編碼格式课锌。

如果你 只是想查看其它編碼格式的文件或者想解決用Vim查看文件亂碼的問題沐鼠,那么你可以在

~/.vimrc 文件中添加以下內(nèi)容:

let &termencoding=&encoding

set fileencodings=utf-8,ucs-bom,gbk,cp936

這樣佛点,就可以讓vim自動(dòng)識(shí)別文 件編碼(可以自動(dòng)識(shí)別UTF-8或者GBK編碼的文件),其實(shí)就是依照fileencodings提供的編碼列表嘗試咳胃,如果沒有找到合適的編碼侯嘀,就用 latin-1(ASCII)編碼打開。

文件編碼轉(zhuǎn)換

1.在Vim中直接進(jìn)行轉(zhuǎn)換文件編碼,比如將一個(gè)文件轉(zhuǎn) 換成utf-8格式

:set fileencoding=utf-8

2. iconv 轉(zhuǎn)換康吵,iconv的命令格式如下:

iconv -f encoding -t encoding inputfile   # 比如將一個(gè)UTF- 8 編碼的文件轉(zhuǎn)換成GBK編碼

iconv -f GBK -t UTF-8 file1 -o file2

Linux 對(duì)一個(gè)3G的文本進(jìn)行編碼轉(zhuǎn)換全過程

本過程中涉及到的Linux的命令有:split, iconv, cat 問題:有一個(gè)3G 的文本a.txt,編碼格式為gbk访递,現(xiàn)在需要對(duì)其進(jìn)行轉(zhuǎn)換成為utf-8晦嵌。 難點(diǎn):iconv的轉(zhuǎn)換是在內(nèi)存中進(jìn)行的,因此3G大小的文本,無法 進(jìn)行直接轉(zhuǎn)換惭载。 思路:先利用split進(jìn)行文件切分旱函,然后對(duì)每一個(gè)字文件進(jìn)行ivonv轉(zhuǎn)換,最后進(jìn)行cat合并描滔。

1) ll -h a.txt 查看文件的大小棒妨,2.9G

2) wc -l a.txt 查看文件的行數(shù),9千200萬行

3) split -l 20000000 a.txt chunk 按照每個(gè)文件2千萬行進(jìn)行切割含长,共分成5個(gè)文件 4) 進(jìn)行轉(zhuǎn)換

iconv -f gbk -t utf-8 chunka > chunka_utf8 -c iconv -f gbk -t utf-8 chunkb > chunkb_utf8 -c iconv -f gbk -t utf-8 chunkc > chunkc_utf8 -c iconv -f gbk -t utf-8 chunkd > chunkd_utf8 -c iconv -f gbk -t utf-8 chunke > chunke_utf8 -c 5) rm chunka chunkb chunkc chunkd chunke 刪除原文件

6) cat chunk* > a.txt_utf8 進(jìn)行合并

至此券腔,工作完成

二、

批 量文件編碼轉(zhuǎn)換

本操作有風(fēng)險(xiǎn)茎芋,請(qǐng)注意操作前備份文件颅眶。

1.將原來所有編碼為gb2312的.java文件轉(zhuǎn)換為編碼為utf-8 的.java.new文件 for i in find . -name "*.java"; do iconv -f

gb2312 -t utf-8 $i -o $i.new; done

2.將*.java.new文件的.new擴(kuò)展名去除

find . -name "*.new" | sed 's/\(.*\).new$/mv "&" "\1"/' | sh

三蜈出、

  • linux下有 許多方便的小工具來轉(zhuǎn)換編碼田弥,

  • 文本內(nèi)容轉(zhuǎn)換 iconv

  • 文件名轉(zhuǎn)換 convmv

  • mp3標(biāo)簽轉(zhuǎn)換 python-mutagen

四、

用法: iconv [選項(xiàng)...] [文件...]

轉(zhuǎn)換給定文件的編碼铡原。

輸 入/輸出格式規(guī)范:

-f, --from-co

de=名稱 原始文本編碼

-t, --to-code=名 稱 輸出編碼

信息:

-l, --list 列舉所有已知的字符集

輸出 控制:

-c 從輸出中忽略無效的字符

-o, --output=FILE 輸出文件

-s, --silent 關(guān)閉警告

--verb-?, --help 給出該系統(tǒng)求助列表

--usage 給出簡(jiǎn)要的用法信息

-V, --version 打印程序版本號(hào)

五偷厦、

find default -type d -exec mkdir -p utf/{} \; find default -type f -exec iconv -f GBK -t UTF-8 {} -o utf/{} \;

這兩行命令將default目錄下的文件由GBK編碼轉(zhuǎn)換為UTF-8編碼,目錄結(jié)構(gòu) 不變燕刻,轉(zhuǎn)碼后

的文件保存在utf/default目錄下只泼。

六、

Linux下文件名編碼批量轉(zhuǎn)換convmv

由于FC將字 符編碼統(tǒng)一成了UTF8卵洗,原來在gb18030下建立的ext3分區(qū)中的文件和目錄请唱,一掛載到FC上就顯示成亂碼。google遍整個(gè)互聯(lián)網(wǎng)过蹂,說對(duì)于目錄 名和文件名十绑,有一個(gè)叫convmv的軟件可以對(duì)其進(jìn)行自動(dòng)轉(zhuǎn)換。

今日下載了convmv酷勺,摸索了一套使用方法如下:

convmv -f code1 -t code2 -r

code1:分區(qū)原來使用的字符集編碼本橙。支持gb2312、gbk脆诉、 big5甚亭,不支持gb18030和big5-hkscs。 code2:預(yù)轉(zhuǎn)換到的字符集編碼击胜。對(duì)于FC亏狰,這里填寫utf8

-r 參數(shù):轉(zhuǎn)換子目錄。

dir:要轉(zhuǎn)換的目錄偶摔,當(dāng)前目錄用./表示骚揍。

回車執(zhí)行,這個(gè)時(shí)候convmv會(huì)顯示執(zhí)行的結(jié)果,但不會(huì)真正對(duì)文件進(jìn) 行修改信不。并提示使用--replace參數(shù)進(jìn)行修改嘲叔。

七、

批量轉(zhuǎn)換文件的編碼

for i in `find ./ -name *.htm` ; do echo $i;iconv -f gb18030 -t utf8 $i -o

/tmp/iconv.tmp;mv /tmp/iconv.tmp $i; done

find -name “*.htm“ \

-exec iconv -f gb2312 -t utf8 ‘{}‘ -o /tmp/iconv.tmp \; \ -exec mv /tmp/iconv.tmp ‘{}‘ \;

修改你的.vimrc文件抽活,讓其支持 gb2312就行硫戈,會(huì)自動(dòng)識(shí)別的。

可以參考我的設(shè)置

代碼:

"設(shè)定文件編碼類型下硕,徹底解決中文編碼問題

let &termencoding=&encoding

set fileencodings=utf-8,gbk,ucs-bom,cp936

按照karron的方法解決了終端中vi看中文字問題丁逝。謝謝

略微查了一下.vimrc中添加內(nèi)容的含意,這篇文章有相關(guān)解釋梭姓。

http://blog.dawnh.net/comment.php?type=trackback&entry_id=59

內(nèi)容如下:

vim中編輯不同編碼的文件時(shí)需要注意的一些地方

此文講解的是vim編輯多字節(jié)編碼文檔(中文)所要了解的一些基礎(chǔ)知識(shí)霜幼,注意其沒有涉及gvim,純指字符終端下的vim誉尖。

[vim編碼方面的基礎(chǔ)知識(shí)]

1罪既,存在3個(gè)變量:

encoding----該選項(xiàng)使用于緩沖的文本(你正在編輯的文件),寄存器铡恕,Vim 腳本文件等等琢感。你可以把 'encoding' 選項(xiàng)當(dāng)作是對(duì) Vim 內(nèi)部運(yùn)行機(jī)制的設(shè)定。

fileencoding----該選項(xiàng)是vim寫入文件時(shí)采用的編碼類型探熔。

termencoding----該選項(xiàng)代表輸出到客戶終端(Term)采用的編碼類型驹针。

2,此3個(gè)變量encoding----與系統(tǒng)當(dāng)前l(fā)ocale相同诀艰,所以編輯文件的時(shí)候要考慮當(dāng)前l(fā)ocale柬甥,否則要設(shè)置的東西就比較多了。

fileencoding----vim打開文件時(shí)自動(dòng)辨認(rèn)其編碼其垄,fileencoding就為辨認(rèn)的值苛蒲。為空則保存文件時(shí)采用encoding的編碼,如果沒有修改encoding捉捅,那值就是系統(tǒng)當(dāng)前l(fā)ocale了撤防。 termencoding----默認(rèn)空值,也就是輸出到終端不進(jìn)行編碼轉(zhuǎn)換棒口。

由此可見寄月,編輯不同編碼文件需要注意的地方不僅僅是這3個(gè)變量,還有系統(tǒng)當(dāng)前l(fā)ocale和无牵、文件本身編碼以及自動(dòng)編碼識(shí)別漾肮、客戶運(yùn)行vim的終端所使用的編碼類型3個(gè)關(guān)鍵點(diǎn),這3個(gè)關(guān)鍵點(diǎn)影響著3個(gè)變量的設(shè)定茎毁。

如果有人問:為什么我用vim打開中文文檔的時(shí)候出現(xiàn)亂碼,

答案是不確定的克懊,原因上面已經(jīng)講了忱辅,不搞清楚這3個(gè)關(guān)鍵點(diǎn)和這3個(gè)變量的設(shè)定值,出現(xiàn)亂碼是正常的谭溉,倒是不出現(xiàn)亂碼那反倒是湊巧的墙懂。

再來看一下常見情況下這三個(gè)關(guān)鍵點(diǎn)的值以及在這種情況下這3個(gè)變量的值:

1.locale----目前大部分Linux系統(tǒng)已經(jīng)將utf-8作為默認(rèn) locale了,不過也有可能不是扮念,例如有些系統(tǒng)使用中文locale zh_CN.GB18030损搬。在locale為utf-8的情況下,啟動(dòng)vim后encoding將會(huì)設(shè)置為utf-8柜与,這是兼容性最好的方式巧勤,因?yàn)閮?nèi)部 處理使用utf-8的話,無論外部存儲(chǔ)編碼為何都可以進(jìn)行無缺損轉(zhuǎn)換弄匕。locale決定了vim內(nèi)部處理數(shù)據(jù)的編碼颅悉,也就是

encoding。

2.文件的編碼以及自動(dòng)編碼識(shí)別----這方面牽扯到各種編碼的規(guī)則迁匠,就不一一細(xì)講了剩瓶。但需要明白的是,文件編碼類型并不是保存在文件內(nèi)的柒瓣,也就是說沒有 任何描述性的字段來記錄文檔是何種編碼類型的儒搭。因此我們?cè)诰庉嬑臋n的時(shí)候吠架,要么必須知道這文檔保存時(shí)是以什么編碼保存的芙贫,要么通過另外的一些手段來斷定編 碼類型,這另外的手段傍药,就是通過某些編碼的碼表特征來斷定磺平,例如每個(gè)字符占用的字節(jié)數(shù),每個(gè)字符的ascii值是否都大于某個(gè)字段來斷定這個(gè)文件屬于何種 編碼拐辽。這種方式vim也使用了拣挪,這就是vim的自動(dòng)編碼識(shí)別機(jī)制了。但這種機(jī)制由于編碼各式各樣俱诸,不可能每種編碼都有顯著的特征來辨別菠劝,所以是不可能 100%準(zhǔn)確的。對(duì)于我們GB2312編碼睁搭,由于其中文是使用了2個(gè)acsii值高于127的字符組成漢字字符的赶诊,因此不可能把gb2312編碼的文件與 latin1編碼區(qū)分開來,此自動(dòng)識(shí)別編碼的機(jī)制對(duì)于gb2312是不成功的园骆,它只會(huì)將文件辨識(shí)為latin1編碼舔痪。此問題同樣出現(xiàn)在gbk,big5 上等锌唾。因此我們?cè)诰庉嫶祟愇臋n時(shí)锄码,需要手工設(shè)定encoding和fileencoding。如果文檔編碼為utf-8時(shí),一般vim都能自動(dòng)識(shí)別正確的 編碼滋捶。

3.客戶運(yùn)行vim的終端所使用的編碼類型----同第二條一樣痛悯,這也是一個(gè)比較 難以斷定的關(guān)鍵點(diǎn)決這個(gè)問題。此問題更多出現(xiàn)在我們的 windows desktop機(jī)遠(yuǎn)程ssh登錄服務(wù)器的情況下重窟,這里牽扯到不同系統(tǒng)的編碼轉(zhuǎn)換問題灸蟆。所以又與windows本身以及ssh客戶端有很大相關(guān)性。在 windows下存在兩種編碼類型的軟件亲族,一種是本身就為unicode編碼方式編寫的軟件炒考,一種是ansi軟件,也就是程序處理數(shù)據(jù)直接采用字節(jié)流霎迫,不 關(guān)心編碼斋枢。前一種程序可以在任何語言的windows上正確顯示多國(guó)語言,而后一種則編寫在何種語言的系統(tǒng)上則只能在何種語言的系統(tǒng)上顯示正確的文字知给。對(duì) 于這兩種類型的程序瓤帚,我們需要區(qū)別對(duì)待。以ssh客戶端為例涩赢,我們使用的putty是unicode軟件戈次,而secure CRT則是ansi 軟件。對(duì)于前者筒扒,我們要正確處理中文怯邪,只要保證vim輸出到終端的編碼為utf-8即可,就是termencoding=utf-8花墩。但對(duì)于后者悬秉,一方面 我們要確認(rèn)我們的windows系統(tǒng)默認(rèn)代碼頁為cp936(中文windows默認(rèn)值),另一方要確認(rèn)vim設(shè)置的termencoding= cp936冰蘑。

最后來看看處理中文文檔最典型的幾種情況和設(shè)置方式:

1.系統(tǒng)locale是utf-8(很多l(xiāng)inux系統(tǒng)默認(rèn)的locale形 式)和泌,編輯的文檔是GB2312或GBK形式的(Windows記事本默認(rèn)保存形式,大部分編輯器也默認(rèn)保存為這個(gè)形式祠肥,所以最常見)武氓,終端類型utf- 8(也就是假定客戶端是putty類的unicode軟件)

則vim打開文檔后,encoding=utf-8(locale決定的)仇箱,fileencoding=latin1(自動(dòng)編碼判斷機(jī)制不準(zhǔn)導(dǎo)致的)县恕,termencoding=空(默認(rèn)無需轉(zhuǎn)換term編碼),顯示文件為亂碼工碾。 解決方案1:首先要修正fileencoding為cp936或者euc-cn(二者一樣的弱睦,只不過叫法不同),注意修正的方法不是:set fileencoding=cp936渊额,這只是將文件保存為cp936况木,正確的方法是重新以cp936的編碼方式加載文件為:edit ++enc=cp936垒拢,可以簡(jiǎn)寫為:e ++enc=cp936

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市火惊,隨后出現(xiàn)的幾起案子求类,更是在濱河造成了極大的恐慌,老刑警劉巖屹耐,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尸疆,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡惶岭,警方通過查閱死者的電腦和手機(jī)寿弱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來按灶,“玉大人症革,你說我怎么就攤上這事⊙炫裕” “怎么了噪矛?”我有些...
    開封第一講書人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)铺罢。 經(jīng)常有香客問我艇挨,道長(zhǎng),這世上最難降的妖魔是什么韭赘? 我笑而不...
    開封第一講書人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任缩滨,我火速辦了婚禮,結(jié)果婚禮上辞居,老公的妹妹穿的比我還像新娘楷怒。我一直安慰自己蛋勺,他們只是感情好瓦灶,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著抱完,像睡著了一般贼陶。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上巧娱,一...
    開封第一講書人閱讀 49,166評(píng)論 1 284
  • 那天碉怔,我揣著相機(jī)與錄音,去河邊找鬼禁添。 笑死撮胧,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的老翘。 我是一名探鬼主播芹啥,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼锻离,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了墓怀?” 一聲冷哼從身側(cè)響起汽纠,我...
    開封第一講書人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎傀履,沒想到半個(gè)月后虱朵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡钓账,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年碴犬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片梆暮。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡翅敌,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出惕蹄,到底是詐尸還是另有隱情蚯涮,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布卖陵,位于F島的核電站遭顶,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏泪蔫。R本人自食惡果不足惜棒旗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望撩荣。 院中可真熱鬧铣揉,春花似錦、人聲如沸餐曹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽台猴。三九已至朽合,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間饱狂,已是汗流浹背曹步。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留休讳,地道東北人讲婚。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像俊柔,于是被迫代替她去往敵國(guó)和親筹麸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子纳猫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容

  • 字符集和編碼簡(jiǎn)介 在編程中常常可以見到各種字符集和編碼竹捉,包括ASCII,MBCS,Unicode等字符集芜辕。確切的說...
    蘭山小亭閱讀 8,456評(píng)論 0 13
  • 1、支持中文編碼的基礎(chǔ) Vim要更好地支持中文編碼需要兩個(gè)特性:+multi_byte和+iconv块差,可以用|:v...
    劉軍民閱讀 3,228評(píng)論 0 4
  • 編碼問題一直困擾著開發(fā)人員侵续,尤其在 Java 中更加明顯,因?yàn)?Java 是跨平臺(tái)語言憨闰,不同平臺(tái)之間編碼之間的切換...
    x360閱讀 2,465評(píng)論 1 20
  • 獻(xiàn)上我經(jīng)過測(cè)試以后的最終解決辦法 首先第一步找到VIM的配置文件状蜗,windows中的vim的配置文件是: C:\P...
    晚輩曾阿牛閱讀 7,693評(píng)論 1 4
  • 手上傷口每天在加速變好,感冒卻越來越重了鹉动。真的一切變化無常轧坎,說冷就冷,流鼻涕已經(jīng)把腦髓流完泽示,無法思考了缸血。只能說晚安
    Miss文小姐閱讀 46評(píng)論 2 0