最近在處理字符過濾,重新研究了下字符、unicode和代碼點(diǎn)的相關(guān)知識丈挟,首先要說一下編碼的基本知識unicode
unicode
unicode是計算機(jī)科學(xué)領(lǐng)域里的一項業(yè)界標(biāo)準(zhǔn)刁卜,包括字符集、編碼方案等曙咽。計算機(jī)采用八比特一個字節(jié)蛔趴,一個字節(jié)最大整數(shù)是255,還要表示中文一個字也是不夠的例朱,至少需要兩個字節(jié)孝情,為了統(tǒng)一所有的文字編碼,unicode為每種語言中的每個字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼洒嗤,通常用兩個字節(jié)表示一個字符箫荡,所以unicode每個平面可以組合出65535種不同的字符羔挡,一共17個平面。
由于英文符號只需要用到低8位绞灼,所以其高8位永遠(yuǎn)是0低矮,因此保存英文文本時會多浪費(fèi)一倍的空間被冒。
比如漢子“漢”的unicode,在java中輸出
System.out.println("\u5B57");
UTF-8
unicode在計算機(jī)中如何存儲呢姆打,就是用unicode字符集轉(zhuǎn)換格式,即我們常見的UTF-8玛追、UTF-16等闲延。
UTF-8就是以字節(jié)為單位對unicode進(jìn)行編碼垒玲,對不同范圍的字符使用不同長度的編碼。
Unicode | Utf-8 |
---|---|
000000-00007F | 0xxxxxxx |
000080-0007FF | 110xxxxx 10xxxxxx |
000800-00FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
010000-10FFFF | 11110xxx10xxxxxx10xxxxxx10xxxxxx |
Java中的String對象就是一個unicode編碼的字符串叮贩。
java中想知道一個字符的unicode編碼我們可以通過Integer.toHexString()方法
String str = "編";
StringBuffer sb = new StringBuffer();
char [] source_char = str.toCharArray();
String unicode = null;
for (int i=0;i<source_char.length;i++) {
unicode = Integer.toHexString(source_char[i]);
if (unicode.length() <= 2) {
unicode = "00" + unicode;
}
sb.append("\\u" + unicode);
}
System.out.println(sb);
輸出\u7f16
對應(yīng)的utf-8編碼是什么呢?
7f16在0800-FFFF之間益老,所以要用3字節(jié)模板:1110xxxx 10xxxxxx 10xxxxxx捺萌。
7f16寫成二進(jìn)制是:0111 1111 0001 0110
按三字節(jié)模板分段方法分為0111 111100 010110,代替模板中的x酷誓,得到11100111 10111100 10010110态坦,即“編”對應(yīng)的utf-8的編碼是e7 bc 96,占3個字節(jié)
codepoint
unicode的范圍從000000 - 10FFFF驮配,char的范圍只能是在\u0000到\uffff壮锻,也就是標(biāo)準(zhǔn)的 2 字節(jié)形式通常稱作 UCS-2,在Java中灰殴,char類型用UTF-16編碼描述一個代碼單元牺陶,但unicode大于0x10000的部分如何用char表示呢辣之,比如一些emoji:??
java的char類型占兩個字節(jié),想要表示??這個表情就需要2個char狮鸭,看如下代碼
String testCode = "ab\uD83D\uDE03cd";
int length = testCode.length();
int count = testCode.codePointCount(0, testCode.length());
//length=6
//count=5
第三個和第四個字符合起來代表??歧蕉,是一個代碼點(diǎn),
如果我們想取到每個代碼點(diǎn)做一些判斷可以這么寫
String testCode = "ab\uD83D\uDE03cd";
int cpCount = testCode.codePointCount(0, testCode.length());
for(int index = 0; index < cpCount; ++index) {
//這里的i是字符的位置
int i = testCode.offsetByCodePoints(0, index);
int codepoint = testCode.codePointAt(i);
}
//輸出
i:0 index: 0 codePoint: 97
i:1 index: 1 codePoint: 98
i:2 index: 2 codePoint: 128515
i:4 index: 3 codePoint: 99
i:5 index: 4 codePoint: 100
也就是按照codePointindex取字符惯退,0取到a催跪,1取到b,2取到\uD83D\uDE03也就是??叠荠,3取到c榛鼎,4取到d鳖孤;
按照String的index取字符,0取到a黄鳍,1取到b框沟,2取到\uD83D增炭,3取到\uDE03隙姿,4取到c,5取到d队丝。
這就是codePointIndex和char的index的區(qū)別欲鹏。
取到codePoint就可以按照unicode值進(jìn)行字符的過濾等操作。
如果有個需求是既可以按照unicode值過濾字符膘盖,也能按照正則表達(dá)式過濾字符衔憨,并且還有白名單袄膏,應(yīng)該如何實現(xiàn)呢。
其實unicode過濾和正則表達(dá)式過濾并不沖突沉馆,自己實現(xiàn)自己的過濾就好了,如果需求加入了過濾白名單就會復(fù)雜一些揖盘,不能直接過濾兽狭,需要先檢驗是否是白名單的index。
我的思路是記錄白名單char的index箕慧,正則表達(dá)式或其他過濾方式可以獲得違規(guī)char的index颠焦,unicode黑名單的codepointIndex可以轉(zhuǎn)換成char的index,在獲取codePont的index時可以判斷當(dāng)前字符是單char字符還是雙char字符粉渠,雙char字符需要添加2個下標(biāo)圾另,方法如下
//取到unicode值
int codepoint = testCode.codePointAt(i);
//將unicode值轉(zhuǎn)換成char數(shù)組
char[] chars = Character.toChars(codepoint);
charIndexs.add(pointIndex);
if (chars.length > 1) {
//表示不是單char字符盯捌,記錄index時同時添加i+1
charIndexs.add(pointIndex + 1);
}
//例
String str = "ab\uD83D\uDE03漢字";
想處理emoji,那記錄的下標(biāo)就是2箫攀、3幼衰,最后和白名單下標(biāo)比較后統(tǒng)一刪除
如何區(qū)別char是一對還是單個
就之前的例子ab\uD83D\uDE03cd渡嚣,換種寫法\u0061\u0062\uD83D\uDE0\u0063\u0064
程序是如何將\uD83D\uDE03解析成一個字符的呢。這就需要Surrogate這個概念绝葡,來自UTF-16藏畅。
UTF-16是16bit最多編碼65536,那大于65536如何編碼愉阎?Unicode 標(biāo)準(zhǔn)制定組想出的辦法是,從這65536個編碼里幽七,拿出2048個澡屡,規(guī)定他們是「Surrogates」,讓他們兩個為一組挪蹭,來代表編號大于65536的那些字符休偶。
編號為 U+D800 至 U+DBFF 的規(guī)定為「High Surrogates」踏兜,共1024個碱妆。
編號為 U+DC00 至 U+DFFF 的規(guī)定為「Low Surrogates」昔驱,也是1024個。
他們組合出現(xiàn)纳本,就又可以多表示1048576中字符繁成。
看一下String.codePointAt這個方法淑玫,
static int codePointAtImpl(char[] a, int index, int limit) {
char c1 = a[index];
if (isHighSurrogate(c1) && ++index < limit) {
char c2 = a[index];
if (isLowSurrogate(c2)) {
return toCodePoint(c1, c2);
}
}
return c1;
}
其中有兩個方法isHighSurrogate絮蒿、isLowSurrogate。
第一個方法判斷是否為高代理項代碼單元佛寿,即在'\uD800'與'\uDBFF'之間,
第二個方法判斷是否為低代理項代碼單元狗准,即在'\uDC00'與'\uDFFF'之間。
codePointAtImpl方法判斷當(dāng)前char是高代理項代碼單元袭祟,下一個是低代理項代碼單元捞附,則這兩個char是一個codepoint鸟召。
再來看一下unicode轉(zhuǎn)UTF-16的方法
如果U<0x10000欧募,U的UTF-16編碼就是U對應(yīng)的16位無符號整數(shù)(為書寫簡便,下文將16位無符號整數(shù)記作WORD)种冬。
如果U≥0x10000舔糖,我們先計算U'=U-0x10000金吗,然后將U'寫成二進(jìn)制形式:yyyy yyyy yyxx xxxx xxxx,U的UTF-16編碼(二進(jìn)制)就是:110110yyyyyyyyyy 110111xxxxxxxxxx旱物。
還是以U+1F603這個??為例子异袄,U'=U-0x10000=F603
寫成2進(jìn)制就是1111011000000011玛臂,不足20位前面補(bǔ)0迹冤,
變成0000111101-1000000011,替換y和x就是1101100000111101橱鹏,1101111000000011挑围,最后UTF-16編碼就是[d83d,de03] 和上面一樣杉辙。