1. URLEncoder.encode()
surrogate pair: UTF-16中用于擴展字符而使用的編碼方式蛤克,是一種采用四個字節(jié)(兩個UTF-16編碼)來表示一個字符。
encode的原理:
- 首先建立一個dontNeedEncoding集合來保存不需要進行編碼的字符夷蚊,包括a-z, A-Z, 0-9等构挤。
- 對待編碼字符串進行循環(huán)遍歷,對每一位字符c進行驗證:
1)如果c在dontNeedEncoding中惕鼓,即c不需要編碼筋现,則直接將其append到結(jié)果字符串;
2)如果c不在dontNeedEncoding中,證明c需要被編碼矾飞,校驗當(dāng)前位與下一位符合hex編碼的高低代理位規(guī)則一膨,并將他們寫入待處理CharArrayWriter中。 - 接下來對charArrayWriter中的特殊字符進行處理:
根據(jù)編碼方式將其轉(zhuǎn)為byte數(shù)組洒沦,并進行遍歷:對待每一位特殊字符豹绪,在其前面加上%,并將其轉(zhuǎn)為16進制字符串申眼,并將轉(zhuǎn)義后的結(jié)果append到結(jié)果字符串瞒津。
2. decode
decode的原理:
- 對待解碼字符串進行遍歷,對待每一個字符c進行驗證:
1)如果為‘+’, 則直接在結(jié)果append空格字符' '
2) 如果為'%'括尸,則代表其應(yīng)該是經(jīng)過編碼的特殊字符巷蚪,則當(dāng)前位i-->i+2位應(yīng)該是一個特殊字符的編碼結(jié)果,將其轉(zhuǎn)回為byte字符姻氨;如果遇到i到i+2位之間不符合hex字符規(guī)則的情況,則拋出異常剪验;如果再處理后發(fā)現(xiàn)字符串仍包含未處理%肴焊,則證明該字符串不符合編碼規(guī)則,拋出異常功戚。