iOS－－過濾emoji表情

科普。

Emoji來源就不多說了，只要知道在某個版本的Unicode編碼中加入了Emoji慕购，并且不是放一塊的，也就說在Unicode編碼中播急，Emoji的地址沒有規(guī)律可尋脓钾，那只能去硬匹配，可Emoji數(shù)量幾百上千桩警，這一個個去匹配實在太蠢了，咱得縮小匹配范圍昌妹。相信現(xiàn)在大家都用的UTF8編碼捶枢，這是一種變長編碼握截，提到變長，那肯定會有一個描述頭烂叔，幾個內(nèi)容體谨胞，UTF8是一樣的。
在一個字節(jié)中蒜鸡，如果第一個bit位是0胯努，那么代表當前為單字節(jié)字符，0之后的7位bit為數(shù)據(jù)部分逢防，代表在Unicode中的序號對應(yīng)的叶沛，如果第一位是1開頭，代表是多字節(jié)字符忘朝，如果第二位是0灰署，代表這個字節(jié)是多字節(jié)字符的數(shù)據(jù)字節(jié)，跟在頭字節(jié)后面局嘁；如果前面有多個1溉箕，則幾個1代表該字符有幾個字節(jié)（包含當前字節(jié)），例如：

110xxxxx // 代表有兩個字節(jié)悦昵，后面一定跟著一個10開頭的數(shù)據(jù)字節(jié)
110xxxxx 10xxxxxx
1110xxxx // 代表有三個字節(jié)肴茄，后面跟著兩個10開頭的數(shù)據(jù)字節(jié)
1110xxxx 10xxxxxx 10xxxxxx

推理可知，Utf8中一個字符最長7個字節(jié)但指，其中數(shù)據(jù)位6個字節(jié)独郎，其中Emoji在Unicode中分布在2、3枚赡、4氓癌、4+長度的地址中，其中長度為2的Emoji大部分是文字字符贫橙，這些我們可以放行贪婉，4、4+的Emoji可全部過濾卢肃，而我們可見文字基本都分部在3字節(jié)地址中疲迂，這里重點需要過濾3字節(jié)的Emoji（3字節(jié)的Emoji已經(jīng)可以入庫了，但為了統(tǒng)一體驗莫湘，還是需要過濾掉）尤蒿，幸運的是3字節(jié)的Emoji不是很多，硬匹配也算說得過去幅垮。

實現(xiàn)腰池。

1.根據(jù)從Unicode官網(wǎng)找到的資料，匹配三字節(jié)Unicode

- (BOOL) emojiInUnicode:(short)code
{
if (code == 0x0023
|| code == 0x002A
|| (code >= 0x0030 && code <= 0x0039)
|| code == 0x00A9
|| code == 0x00AE
|| code == 0x203C
|| code == 0x2049
|| code == 0x2122
|| code == 0x2139
|| (code >= 0x2194 && code <= 0x2199)
|| code == 0x21A9 || code == 0x21AA
|| code == 0x231A || code == 0x231B
|| code == 0x2328
|| code == 0x23CF
|| (code >= 0x23E9 && code <= 0x23F3)
|| (code >= 0x23F8 && code <= 0x23FA)
|| code == 0x24C2
|| code == 0x25AA || code == 0x25AB
|| code == 0x25B6
|| code == 0x25C0
|| (code >= 0x25FB && code <= 0x25FE)
|| (code >= 0x2600 && code <= 0x2604)
|| code == 0x260E
|| code == 0x2611
|| code == 0x2614 || code == 0x2615
|| code == 0x2618
|| code == 0x261D
|| code == 0x2620
|| code == 0x2622 || code == 0x2623
|| code == 0x2626
|| code == 0x262A
|| code == 0x262E || code == 0x262F
|| (code >= 0x2638 && code <= 0x263A)
|| (code >= 0x2648 && code <= 0x2653)
|| code == 0x2660
|| code == 0x2663
|| code == 0x2665 || code == 0x2666
|| code == 0x2668
|| code == 0x267B
|| code == 0x267F
|| (code >= 0x2692 && code <= 0x2694)
|| code == 0x2696 || code == 0x2697
|| code == 0x2699
|| code == 0x269B || code == 0x269C
|| code == 0x26A0 || code == 0x26A1
|| code == 0x26AA || code == 0x26AB
|| code == 0x26B0 || code == 0x26B1
|| code == 0x26BD || code == 0x26BE
|| code == 0x26C4 || code == 0x26C5
|| code == 0x26C8
|| code == 0x26CE
|| code == 0x26CF
|| code == 0x26D1
|| code == 0x26D3 || code == 0x26D4
|| code == 0x26E9 || code == 0x26EA
|| (code >= 0x26F0 && code <= 0x26F5)
|| (code >= 0x26F7 && code <= 0x26FA)
|| code == 0x26FD
|| code == 0x2702
|| code == 0x2705
|| (code >= 0x2708 && code <= 0x270D)
|| code == 0x270F
|| code == 0x2712
|| code == 0x2714
|| code == 0x2716
|| code == 0x271D
|| code == 0x2721
|| code == 0x2728
|| code == 0x2733 || code == 0x2734
|| code == 0x2744
|| code == 0x2747
|| code == 0x274C
|| code == 0x274E
|| (code >= 0x2753 && code <= 0x2755)
|| code == 0x2757
|| code == 0x2763 || code == 0x2764
|| (code >= 0x2795 && code <= 0x2797)
|| code == 0x27A1
|| code == 0x27B0
|| code == 0x27BF
|| code == 0x2934 || code == 0x2935
|| (code >= 0x2B05 && code <= 0x2B07)
|| code == 0x2B1B || code == 0x2B1C
|| code == 0x2B50
|| code == 0x2B55
|| code == 0x3030
|| code == 0x303D
|| code == 0x3297
|| code == 0x3299
// 第二段
|| code == 0x23F0) {
return YES;
}
return NO;
}

2.另外還有很古老的一套Emoji，采用Unicode私有區(qū)域示弓，現(xiàn)在基本沒用了讳侨，不過還是過濾下

- (BOOL) emojiInSoftBankUnicode:(short)code
{
return ((code >> 8) >= 0xE0 && (code >> 8) <= 0xE5 && (Byte)(code & 0xFF) < 0x60);
}

3.對輸入string的過濾，需要過濾掉字節(jié)長度為非3的字符奏属，然后校驗3字節(jié)的unicode編碼

- (BOOL) containEmoji
{
NSUInteger len = [self lengthOfBytesUsingEncoding:NSUTF8StringEncoding];
if (len < 3) {// 大于2個字符需要驗證Emoji(有些Emoji僅三個字符)
return NO;
}// 僅考慮字節(jié)長度為3的字符,大于此范圍的全部做Emoji處理
NSData *data = [self dataUsingEncoding:NSUTF8StringEncoding];Byte *bts = (Byte *)[data bytes];
Byte bt;
short v;
for (NSUInteger i = 0; i < len; i++) {
bt = bts[i];

if ((bt | 0x7F) == 0x7F) {// 0xxxxxxxASIIC編碼
continue;
}
if ((bt | 0x1F) == 0xDF) {// 110xxxxx兩個字節(jié)的字符
i += 1;
continue;
}
if ((bt | 0x0F) == 0xEF) {// 1110xxxx三個字節(jié)的字符(重點過濾項目)
// 計算Unicode下標
v = bt & 0x0F;
v = v << 6;
v |= bts[i + 1] & 0x3F;
v = v << 6;
v |= bts[i + 2] & 0x3F;

// NSLog(@"%02X%02X", (Byte)(v >> 8), (Byte)(v & 0xFF));
if ([self emojiInSoftBankUnicode:v] || [self emojiInUnicode:v]) {
return YES;
}

i += 2;
continue;
}
if ((bt | 0x3F) == 0xBF) {// 10xxxxxx10開頭,為數(shù)據(jù)字節(jié),直接過濾
continue;
}

return YES; // 不是以上情況的字符全部超過三個字節(jié),做Emoji處理
}return NO;
}

感謝來自oscine的作者xoHome的文章跨跨。

最后編輯于：2020.03.24 13:04:29

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市囱皿，隨后出現(xiàn)的幾起案子勇婴，更是在濱河造成了極大的恐慌，老刑警劉巖嘱腥，帶你破解...
沈念sama閱讀 219,539評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件耕渴，死亡現(xiàn)場離奇詭異，居然都是意外死亡爹橱，警方通過查閱死者的電腦和手機萨螺，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來愧驱，“玉大人慰技，你說我怎么就攤上這事∽檠猓” “怎么了吻商？”我有些...
開封第一講書人閱讀 165,871評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長糟红。經(jīng)常有香客問我艾帐，道長，這世上最難降的妖魔是什么盆偿？我笑而不...
開封第一講書人閱讀 58,963評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任柒爸，我火速辦了婚禮，結(jié)果婚禮上事扭，老公的妹妹穿的比我還像新娘捎稚。我一直安慰自己，他們只是感情好求橄，可當我...
茶點故事閱讀 67,984評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布今野。她就那樣靜靜地躺著，像睡著了一般罐农。火紅的嫁衣襯著肌膚如雪条霜。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,763評論 1贊 307
城市分裂傳說
那天涵亏，我揣著相機與錄音宰睡，去河邊找鬼蒲凶。笑死，一個胖子當著我的面吹牛夹厌，可吹牛的內(nèi)容都是我干的豹爹。我是一名探鬼主播裆悄，決...
沈念sama閱讀 40,468評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼矛纹，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了光稼？” 一聲冷哼從身側(cè)響起或南，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎艾君，沒想到半個月后采够，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,850評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡冰垄，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,002評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年蹬癌，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片虹茶。...
茶點故事閱讀 40,144評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡逝薪，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出蝴罪，到底是詐尸還是另有隱情董济，我是刑警寧澤，帶...
沈念sama閱讀 35,823評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布要门，位于F島的核電站虏肾，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏欢搜。R本人自食惡果不足惜封豪，卻給世界環(huán)境...
茶點故事閱讀 41,483評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望炒瘟。院中可真熱鬧吹埠，春花似錦、人聲如沸唧领。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽斩个。三九已至胯杭，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間受啥，已是汗流浹背做个。一陣腳步聲響...
開封第一講書人閱讀 33,150評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工鸽心，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人居暖。一個月前我還...
沈念sama閱讀 48,415評論 3贊 373
代替公主和親
正文我出身青樓顽频，卻偏偏與公主長得像，于是被迫代替她去往敵國和親太闺。傳聞我的和親對象是個殘疾皇子糯景，可洞房花燭夜當晚...
茶點故事閱讀 45,092評論 2贊 355

iOS－－過濾emoji表情

科普。

實現(xiàn)腰池。

推薦閱讀更多精彩內(nèi)容