PHP 高級(jí)面試題 - 如果沒有 mb 系列函數(shù)儡循,如何切割多字節(jié)字符串

需求

如果需要將可能含有中文的字符串進(jìn)行拆分成數(shù)組隔披,我們下面以 utf-8 編碼為例。

解決方案一

我習(xí)慣的方法可能是:

mb_internal_encoding("UTF-8");

$str = "周夢(mèng)康";

$array = [];
for ($i=0,$l = mb_strlen($str); $i < $l; $i++) { 
    array_push($array, mb_substr($str, $i, 1, "utf-8"));
}

var_export($array);

假如我們沒裝mb擴(kuò)展怎么辦鸠姨?

解決方案二

今天看到一份代碼铜秆,別人是這么寫的:

function str_split_utf8($str)  
{  
    $split = 1;  
    $array = array();  
    for ($i = 0; $i < strlen($str);) {  
        $value = ord($str[$i]);  
        if ($value > 127) {  
            if ($value >= 192 && $value <= 223) {  
                $split = 2;  
            } elseif ($value >= 224 && $value <= 239) {  
                $split = 3;  
            } elseif ($value >= 240 && $value <= 247) {  
                $split = 4;  
            }  
        } else {  
            $split = 1;  
        }  
        $key = null;  
        for ($j = 0; $j < $split; $j++, $i++) {  
            $key .= $str[$i];  
        }  
        array_push($array, $key);  
    }  
    return $array;  
}  

代碼解讀

strlen計(jì)算的是字節(jié)數(shù),而直接使用$str[x]就沿用了c語言里面char數(shù)組和字符串的習(xí)慣讶迁,表示按字節(jié)來讀取$str连茧,也就是說每次讀取的數(shù)據(jù)的ascii碼值不可能大于255。而php里使用ord來獲取ascii碼值巍糯。

切割規(guī)則如下

ascii 碼范圍 切割偏移量
0 ~ 127 1 字節(jié)
192 ~ 223 2 字節(jié)
224 ~ 239 3 字節(jié)
240 ~ 247 4 字節(jié)

為什么呢啸驯?

http://www.ruanyifeng.com/blo...
https://segmentfault.com/a/11... 口語化敘述 utf-8 的來歷

Unicode

Unicode 只是一個(gè)符號(hào)集,它只規(guī)定了符號(hào)的二進(jìn)制代碼祟峦,卻沒有規(guī)定這個(gè)二進(jìn)制代碼應(yīng)該如何存儲(chǔ)罚斗。

UTF-8

UTF-8 就是在互聯(lián)網(wǎng)上使用最廣的一種 Unicode 的實(shí)現(xiàn)方式。UTF-8 最大的一個(gè)特點(diǎn)宅楞,就是它是一種變長(zhǎng)的編碼方式针姿。它可以使用1~4個(gè)字節(jié)表示一個(gè)符號(hào),根據(jù)不同的符號(hào)而變化字節(jié)長(zhǎng)度厌衙。

UTF-8 的編碼規(guī)則很簡(jiǎn)單距淫,只有二條:

  1. 對(duì)于單字節(jié)的符號(hào),字節(jié)的第一位設(shè)為0婶希,后面7位為這個(gè)符號(hào)的 Unicode 碼榕暇。因此對(duì)于英語字母,UTF-8 編碼和 ASCII 碼是相同的(能容納0~127)喻杈。
  2. 對(duì)于n字節(jié)的符號(hào)(n > 1)拐揭,第一個(gè)字節(jié)的前n位都設(shè)為1,第n + 1位設(shè)為0奕塑,后面字節(jié)的前兩位一律設(shè)為10。剩下的沒有提及的二進(jìn)制位家肯,全部為這個(gè)符號(hào)的 Unicode 碼龄砰。

下表總結(jié)了編碼規(guī)則,字母x表示可用編碼的位:

Unicode 符號(hào)范圍(十六進(jìn)制) UTF-8 編碼方式(二進(jìn)制) UTF-8 首字節(jié)范圍
0000 0000-0000 007F 0xxxxxxx 0 ~ 127
0000 0080-0000 07FF 110xxxxx 10xxxxxx (128+64) ~ (255-32) 也就是 192 ~ 223
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx (128+64+32) ~ (255-16) 也就是 224 ~ 239
0001 0000-0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx (128+64+32+16) ~ (255-8) 也就是 240 ~ 247

想必看了這個(gè)表,大家就能明白了吧换棚。

原文來源: https://segmentfault.com/a/1190000012710624

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末式镐,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子固蚤,更是在濱河造成了極大的恐慌娘汞,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件夕玩,死亡現(xiàn)場(chǎng)離奇詭異你弦,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)燎孟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門禽作,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人揩页,你說我怎么就攤上這事旷偿。” “怎么了爆侣?”我有些...
    開封第一講書人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵萍程,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我兔仰,道長(zhǎng)茫负,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任斋陪,我火速辦了婚禮朽褪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘无虚。我一直安慰自己缔赠,他們只是感情好啸蜜,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開白布称近。 她就那樣靜靜地躺著芒率,像睡著了一般芽狗。 火紅的嫁衣襯著肌膚如雪扣猫。 梳的紋絲不亂的頭發(fā)上琳钉,一...
    開封第一講書人閱讀 49,166評(píng)論 1 284
  • 那天似枕,我揣著相機(jī)與錄音求厕,去河邊找鬼戈抄。 笑死离唬,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的划鸽。 我是一名探鬼主播输莺,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼戚哎,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了嫂用?” 一聲冷哼從身側(cè)響起型凳,我...
    開封第一講書人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎嘱函,沒想到半個(gè)月后甘畅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡往弓,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年疏唾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亮航。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡荸实,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缴淋,到底是詐尸還是另有隱情准给,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布重抖,位于F島的核電站露氮,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏钟沛。R本人自食惡果不足惜畔规,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望恨统。 院中可真熱鬧叁扫,春花似錦、人聲如沸畜埋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽悠鞍。三九已至对室,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間咖祭,已是汗流浹背掩宜。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留么翰,地道東北人牺汤。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像浩嫌,于是被迫代替她去往敵國(guó)和親慧瘤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子戴已,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容