public final class String
implements java.io.Serializable, Comparable<String>, CharSequence,
Constable, ConstantDesc
String實(shí)現(xiàn)了5個接口鸠信,Serializable和Comparable比較好理解,后面三個比較難理解
CharSequence
字節(jié)序列唠摹,提供只讀的魂务,統(tǒng)一的訪問自己序列方法。
int length();
char charAt(int index);
CharSequence subSequence(int start, int end);
public String toString();
這些方法的作用都比較好理解考阱。
接口中還提供了幾個默認(rèn)方法
1.public default IntStream chars()
java8添加翠忠,返回Int流。之所以是Int類型是因?yàn)閖ava字符串采用的編碼格式是utf-16或Latin,單個字符可能最大時32位
public default IntStream chars() {
class CharIterator implements PrimitiveIterator.OfInt {
int cur = 0;
public boolean hasNext() {
return cur < length();
}
public int nextInt() {
if (hasNext()) {
return charAt(cur++);
} else {
throw new NoSuchElementException();
}
}
@Override
public void forEachRemaining(IntConsumer block) {
for (; cur < length(); cur++) {
block.accept(charAt(cur));
}
}
}
return StreamSupport.intStream(() ->
Spliterators.spliterator(
new CharIterator(),
length(),
Spliterator.ORDERED),
Spliterator.SUBSIZED | Spliterator.SIZED | Spliterator.ORDERED,
false);
}
其中有一個內(nèi)部類乞榨,實(shí)現(xiàn)PrimitiveIterator.OfInt ,Int迭代器秽之。
forEachRemaining的意思是對剩下的未迭代的元素繼續(xù)迭代,不同于forEach每次調(diào)用重新迭代吃既,所有元素只會迭代一次考榨。
public static Spliterator.OfInt spliterator(PrimitiveIterator.OfInt iterator,
long size,
int characteristics)
Int分割器,第一個參數(shù)Int迭代器鹦倚,第二次參數(shù)是長度河质,第三個參數(shù)是迭代特性。
public static final int ORDERED = 0x00000010;//表示元素是有序的
public static final int DISTINCT = 0x00000001;//表示元素不重復(fù)
public static final int SORTED = 0x00000004;//表示元素是按一定規(guī)律進(jìn)行排列(有指定比較器)
public static final int SIZED = 0x00000040;//是否確定大小
public static final int NONNULL = 0x00000100;//表示迭代器中沒有null元素
public static final int IMMUTABLE = 0x00000400;//表示元素不可變
public static final int CONCURRENT = 0x00001000;//表示迭代器可以多線程操作
[參考]https://blog.csdn.net/m0_37664906/article/details/80360388
public default IntStream codePoints()
獲取code point流
由于uft-16由一個或兩個16位的碼組成震叙,code point實(shí)際是區(qū)分及定位字符的點(diǎn)掀鹅。比如一個16*4位數(shù)據(jù),是4個字節(jié)媒楼?3個或者2個?內(nèi)部通過比較等邏輯區(qū)分后輸出
public static int compare(CharSequence cs1, CharSequence cs2)
靜態(tài)比較方法
public static int compare(CharSequence cs1, CharSequence cs2) {
// 判斷地址是否相等
if (Objects.requireNonNull(cs1) == Objects.requireNonNull(cs2)) {
return 0;
}
// 是否類型相同乐尊,并調(diào)用compareTo方法
if (cs1.getClass() == cs2.getClass() && cs1 instanceof Comparable) {
return ((Comparable<Object>) cs1).compareTo(cs2);
}
// 以最短的序列為基準(zhǔn),一個個比較
for (int i = 0, len = Math.min(cs1.length(), cs2.length()); i < len; i++) {
char a = cs1.charAt(i);
char b = cs2.charAt(i);
if (a != b) {
return a - b;
}
}
// 直接比較長度
return cs1.length() - cs2.length();
}
Constable, ConstantDesc
Constable代表這個類型是可以房子常量池中的
ConstantDesc 代表常量的描述信息划址,猜測類似于類的信息或者索引信息等
String,Integer,Long,Float,Double的常量描述就是自身扔嵌,其他類型由自己的實(shí)現(xiàn)
coder COMPACT_STRINGS
java9之后,為了節(jié)省字符串的空間夺颤,默認(rèn)開啟字符串壓縮痢缎,也就是用byte(8位)保存字母。COMPACT_STRINGS默認(rèn)開啟拂共。coder由兩個值:LATIN1牺弄,UTF16。UTF16是肯定沒有開啟壓縮的宜狐。
具體參考:http://www.reibang.com/p/8a9b2c60e569
String(char[] value, int off, int len, Void sig) {
if (len == 0) {
this.value = "".value;
this.coder = "".coder;
return;
}
if (COMPACT_STRINGS) {
byte[] val = StringUTF16.compress(value, off, len);
if (val != null) {
this.value = val;
this.coder = LATIN1;
return;
}
}
this.coder = UTF16;
this.value = StringUTF16.toBytes(value, off, len);
}
先判斷是否開啟壓縮势告,如果開啟則先通過UTF16壓縮成byte蛇捌,如果成功則修改coder為LATIN1,否則關(guān)閉壓縮,coder為UTF16.
length
public int length() {
return value.length >> coder();
}
@Native static final byte LATIN1 = 0;
@Native static final byte UTF16 = 1;
16位的utf16是LATIN的2倍咱台,所以直接右移1位络拌。
但是UTF16是變長的,所以類似于emoji的字符串計算的時候會感覺會出現(xiàn)問題回溺。這個是怎么解決的春贸?
壓縮字符串
String中的各種操作都需要判斷coder,再采用不同的處理方法遗遵。
如果兩個字符串的編碼格式相同萍恕,處理比較容易。如果不同车要,則需要先轉(zhuǎn)換成UTF16允粤,再處理,多了一步轉(zhuǎn)換的過程翼岁,可能會影響性能类垫。例
public String concat(String str) {
if (str.isEmpty()) {
return this;
}
if (coder() == str.coder()) {
byte[] val = this.value;
byte[] oval = str.value;
int len = val.length + oval.length;
byte[] buf = Arrays.copyOf(val, len);
System.arraycopy(oval, 0, buf, val.length, oval.length);
return new String(buf, coder);
}
int len = length();
int olen = str.length();
byte[] buf = StringUTF16.newBytesFor(len + olen);
getBytes(buf, 0, UTF16);
str.getBytes(buf, len, UTF16);
return new String(buf, UTF16);
}
多了一步StringUTF16.newBytesFor(len + olen)的過程。