今天早上按照慣例靠抑,更新代碼量九,然后編譯,發(fā)現(xiàn)如標(biāo)題錯誤: 打開所在文件颂碧,沒有看見任何問題荠列,也沒有提示編譯錯誤,隨上網(wǎng)搜索载城,發(fā)現(xiàn)了一篇文章:
{轉(zhuǎn)}
[source]
: blog.csdn
最近開發(fā)人員通過SVN提交了xxx.java文件肌似,因發(fā)布時該包有問題需要回退,故SCM將該xxx.java文件用editplus打開刪除了新添的一行诉瓦,刪除后重新編譯打包川队,卻報了如下異常:
java:[1,0] illegal character: \65279
表面看著該文件確實沒錯,看不出來問題睬澡,后來從SVN上更新下代碼以后固额,發(fā)現(xiàn)本地也不報錯,后來通過Eclipse查看了該xxx.java類的屬性煞聪,才發(fā)現(xiàn)玄機所在:
編譯有問題的文件屬性:(注意最下面一行 Byte Order Mark is UTF-8 (BOM))
編譯正常的文件屬性:
看來問題出在 Byte Order Mark is UTF-8 (BOM)上斗躏。因為看不出來問題,所以用UltraEdit打開兩個文件昔脯,并用16進制格式顯示:
有問題的文件頭:
無問題的文件頭:
看來有問題的文件頭前面多了三個字節(jié)EF BB BF啄糙。
具體原因如下:
某些編輯器會往utf8文件中添加utf8標(biāo)記(editplus稱其為簽名)笛臣,它會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)隧饼,它的表示的是 Unicode 標(biāo)記(BOM)沈堡。 因此要解決這個問題的關(guān)鍵就是把這個標(biāo)記選項去掉,可按如下方法操作桑李。 首先用editplus打開這個文件,從Doucument菜單中選擇Permanet Settings,有三個分類窿给,分別是General,File, Tools.點擊File,右邊會有一項是 UTF-8 signature: 選擇 always remove signature. 點擊OK 贵白。中文版本的 Editplus 下操作的菜單結(jié)構(gòu)如下: 文檔->參數(shù)設(shè)置->文件->UTF-8簽名->總是移除簽名->確定 ,這樣就設(shè)置了UTF-8格式不需要在文件前面加標(biāo)記崩泡,最后把文件另存為utf-8格式就好了.
相關(guān)資料禁荒,網(wǎng)上摘抄:
UTF-8以字節(jié)為編碼單元,沒有字節(jié)序的問題角撞。UTF-16以兩個字節(jié)為編碼單元呛伴,在解釋一個UTF-16文本前,首先要弄清楚每個編碼單元的字節(jié)序谒所。例如收到一個“奎”的Unicode編碼是594E热康,“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節(jié)流“594E”劣领,那么這是“奎”還是“乙”姐军?Unicode規(guī)范中推薦的標(biāo)記字節(jié)順序的方法是BOM。BOM不是“Bill Of Material”的BOM表尖淘,而是Byte Order Mark奕锌。BOM是一個有點小聰明的想法:在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的編碼FEFF村生。而FFFE在UCS中是不存在的字符惊暴,所以不應(yīng)該出現(xiàn)在實際傳輸中。UCS規(guī)范建議我們在傳輸字節(jié)流前趁桃,先傳輸字符"ZERO WIDTH NO-BREAK SPACE"辽话。這樣如果接收者收到FEFF,就表明這個字節(jié)流是Big-Endian的卫病;如果收到FFFE屡穗,就表明這個字節(jié)流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM忽肛。UTF-8不需要BOM來表明字節(jié)順序村砂,但可以用BOM來表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF(讀者可以用我們前面介紹的編碼方法驗證一下)屹逛。所以如果接收者收到以EF BB BF開頭的字節(jié)流础废,就知道這是UTF-8編碼了汛骂。Windows就是使用BOM來標(biāo)記文本文件的編碼方式的。原來BOM是在文件的開始加了幾個字節(jié)作為標(biāo)記评腺。
擴展閱讀:
UTF-8, UTF-16, UTF-32 & BOM:http://www.unicode.org/faq/utf_bom.html#BOM
W3C官方說明:http://www.w3.org/International/questions/qa-utf8-bom
按照上文說法帘瞭,我打開了報錯源文件,如下:
锘縫ackage com.xxx
果然蒿讥,有多余的東西蝶念,然后找到同事,使用eclipse查看屬性芋绸,真是byte order xxx 媒殉,于是問題解決了, 同事修改文本編碼后重新提交摔敛,又能愉快的寫代碼啦!!~~~~