什么是Unicode哆键?
Unicode是一種旨在將一切字符編碼到同一個(gè)編碼體系的字符集規(guī)范司光,【官網(wǎng)鏈接】筐咧。Unicode給每一個(gè)字形一個(gè)獨(dú)立的表示,叫做碼點(diǎn)(code point)赠堵,碼點(diǎn)一般寫作"U+xxxx",xxxx表示16進(jìn)制的數(shù)字法褥,例:U+54C8(漢字“哈”)茫叭。用途或意思相近的碼點(diǎn)被劃分到一個(gè)組里,叫做平面(plane)半等,目前一共規(guī)定了17個(gè)平面揍愁,只有少數(shù)幾個(gè)被使用到了。17個(gè)平面目前的分布為:
- 0號(hào)平面:基本面BMP
- 1號(hào)平面:補(bǔ)充平面SMP
- 2號(hào)平面:表意補(bǔ)充SIP
- 3-13號(hào)平面:預(yù)備使用TIP
- 14號(hào)平面:特殊補(bǔ)充SSP
- 15-16號(hào)平面:用戶自定義區(qū)
Unicode planes and used code point ranges(維基百科)
截止到Unicode 10.0杀饵,一共規(guī)定了136,690個(gè)不重復(fù)字符莽囤。
unicode 11.0字符分配表
unicode11_assigned_characters.png
什么是utf-8?
TODO xxx
utf-8是一種字符編碼方式切距,是Unicode標(biāo)準(zhǔn)規(guī)范的一種實(shí)現(xiàn)朽缎。