大模型的tokens是通過(guò)Tokenizer模型計(jì)算出來(lái)的砸脊。如果只是要預(yù)估大模型的tokens和字符數(shù)的換算關(guān)系精盅,可以參考:
中文場(chǎng)景下
一個(gè) token ≈ 1.6漢字
英文場(chǎng)景下
一個(gè) token ≈ 0.75單詞 ≈ 4個(gè)字符
大模型的tokens是通過(guò)Tokenizer模型計(jì)算出來(lái)的砸脊。如果只是要預(yù)估大模型的tokens和字符數(shù)的換算關(guān)系精盅,可以參考:
一個(gè) token ≈ 1.6漢字
一個(gè) token ≈ 0.75單詞 ≈ 4個(gè)字符