Unicode
Unicode中文名為統(tǒng)一碼或者國際通用碼,為文字系統(tǒng)編碼之業(yè)界標(biāo)準(zhǔn)祖搓,由Unicode Consortium(統(tǒng)一碼/國際通用碼聯(lián)盟)制定盲厌,是一個負(fù)責(zé)創(chuàng)建數(shù)字字符和數(shù)字通用標(biāo)準(zhǔn)的非營利組織其屏,Unicode是萬維網(wǎng)網(wǎng)頁標(biāo)準(zhǔn)的基礎(chǔ),其好處是對于每一個字元提供了一個跨平臺僚楞、語言與程式的統(tǒng)一數(shù)碼勤晚,使用戶遇到亂碼的問題得到基本解決。
字符集
歷史上存在兩個獨立的嘗試創(chuàng)立單一字符集的組織泉褐,即國際標(biāo)準(zhǔn)化組織(ISO)和多語言軟件制造商組成的統(tǒng)一碼聯(lián)盟赐写。前者開發(fā)的 ISO/IEC 10646 項目,后者開發(fā)的統(tǒng)一碼項目膜赃。因此最初制定了不同的標(biāo)準(zhǔn).由于各種字符集的標(biāo)準(zhǔn)不一挺邀,不同的語言文字符號不能在同一文件中出現(xiàn),需要做額外轉(zhuǎn)換跳座。因此Unicode聯(lián)盟制定了Unicode編碼標(biāo)準(zhǔn)端铛,為所有文本提供可用編碼。
Unihan
Unicode的早期發(fā)展涉及中日韓三種語言所用的漢字疲眷,又稱CJK禾蚕,后期有越南用的漢字加入,稱為CJKV咪橙。統(tǒng)一漢字的特點在于夕膀,幾種語言共享的符號且經(jīng)同意,是共享統(tǒng)一編碼美侦,專用漢字則否产舞。
http://unicode.org/charts/unihan.html
CLDR
這里的CLDR不是美股實時行情,而是通用區(qū)域資料庫菠剩,其中存有不少數(shù)據(jù)易猫,可以用XML或JSON格式取用,應(yīng)用于網(wǎng)站或軟件的在地化或全球化具壮。
http://cldr.unicode.org/index/charts
此外安寺,github或者Unicode網(wǎng)站上都有集體協(xié)作用于進(jìn)行CLDR的完善。現(xiàn)在CLDR擁有地域-語言表[http://www.unicode.org/cldr/charts/latest/supplemental/territory_language_information.html]甫男,Terriotory Language Information,詳列用戶貢獻(xiàn)但經(jīng)專家審批的各地域之語言人口側(cè)寫亡资。
https://github.com/unicode-cldr