敏感詞過濾是隨著互聯(lián)網(wǎng)社區(qū)發(fā)展一起發(fā)展起來的一種阻止網(wǎng)絡(luò)犯罪和網(wǎng)絡(luò)暴力的技術(shù)手段,通過對可能存在犯罪或網(wǎng)絡(luò)暴力可能的關(guān)鍵詞進(jìn)行有針對性的篩查和屏蔽买喧,很多時候我們能夠防患于未然捻悯,把后果嚴(yán)重的犯罪行為扼殺于萌芽之中匆赃。
隨著互聯(lián)網(wǎng)社區(qū)和UGC應(yīng)用的不斷發(fā)展變化,敏感詞過濾系統(tǒng)也經(jīng)歷了不斷的發(fā)展演進(jìn)秋度,有如下多種過濾方式:
01. 敏感詞替換
敏感詞替換是較早出現(xiàn)的一種敏感詞過濾方式炸庞,即系統(tǒng)不會在用戶端進(jìn)行敏感詞過濾和校驗,而是把這個工作放在數(shù)據(jù)入庫之前完成荚斯,在數(shù)據(jù)寫入數(shù)據(jù)庫之前埠居,系統(tǒng)根據(jù)已經(jīng)制定的規(guī)則把所有敏感詞替換為設(shè)定好的符號或文字,這個過程是不可逆的事期。
這種技術(shù)手段對于阻止網(wǎng)絡(luò)暴力成效顯著滥壕,用戶在閱讀其他人的發(fā)布信息時,不會再看到那些刺眼的侮辱性的字眼兽泣,但又不會太過于破壞發(fā)布者的本意绎橘,同時也不會對用戶閱讀造成很大干擾和障礙,尤其是在聊天室或群組等場景中表現(xiàn)優(yōu)異唠倦。
但這種過濾方式仍然可能會對普通用戶造成“隱性騷擾”称鳞,因為我們基本可以憑借上下文來基本猜出那些被替換成“***”的本來面目。
02. 敏感詞屏蔽
敏感詞屏蔽就是發(fā)布的信息里的敏感詞被直接去除稠鼻,再寫入數(shù)據(jù)庫冈止,這種方式能最大程度上避免對普通用戶的“隱性騷擾”,但隨之而來的代價就是可能會造成發(fā)布信息的可讀性下降候齿,甚至影響到閱讀體驗熙暴。
03. 用戶端阻止發(fā)布
用戶端阻止發(fā)布是指系統(tǒng)在用戶發(fā)布信息時對信息進(jìn)行本地或服務(wù)器端敏感詞校驗,一旦發(fā)現(xiàn)用戶發(fā)布的信息有詞匯符合敏感詞過濾條件慌盯,即阻止用戶的發(fā)布操作并返回提示信息周霉,提示用戶有敏感詞不符合發(fā)布要求,并要求用戶修改自己發(fā)布的信息亚皂。
這種過濾方式能夠最大程度上降低系統(tǒng)自身的安全風(fēng)險并顯著降低人工審核的成本俱箱,在用戶輸入昵稱,輸入簡單介紹時效果最佳孕讳。
04. 系統(tǒng)人工審核
在UGC內(nèi)容不是特別多或搭配AI識別敏感詞的情況下匠楚,系統(tǒng)可以允許用戶首先發(fā)布自己的信息,再使用AI輔助方式找出存在敏感詞風(fēng)險的發(fā)布信息厂财,由人工進(jìn)行審核芋簿,符合條件或者被“誤傷”者放行,屬于惡意發(fā)布信息的則人工刪除并通知發(fā)布者璃饱。
這是一種對用戶體驗傷害最小的与斤,最人性化的敏感詞過濾方式,但隨之而來的可能也是冷人咋舌的人工成本。
05. “小黑屋”
系統(tǒng)允許用戶發(fā)布信息撩穿,但用戶發(fā)布后使用AI輔助方式找出存在敏感詞風(fēng)險的發(fā)布信息并批量導(dǎo)入“小黑屋”磷支,然后通知發(fā)布者進(jìn)行修改,一直到系統(tǒng)不再提示有敏感詞風(fēng)險為止食寡。
這種方式能夠保證用戶端發(fā)布時的體驗的流暢性雾狈,但因為沒有人工審核參與,敏感詞風(fēng)險通知的發(fā)送是異步的抵皱,用戶可能在發(fā)布后離開應(yīng)用善榛,過很長時間返回后,發(fā)現(xiàn)發(fā)布的信息被關(guān)入“小黑屋”呻畸,還要自己主動排查猜測屏蔽原因移盆,這種挫折感和用戶體驗問題也是非常嚴(yán)重的。
06. 僅發(fā)布者可見
有些UCG社區(qū)采用了這種敏感詞風(fēng)險控制機(jī)制伤为,命中了敏感詞的文章或信息咒循,系統(tǒng)暗暗地把信息設(shè)置為僅發(fā)布者自己可見,而發(fā)布者可能還為自己的信息沒有瀏覽和點擊而疑惑不解绞愚,這真是讓發(fā)布者“死得不明不白”叙甸,這種過濾機(jī)制真是非常奇葩,但它卻真實地存在很多應(yīng)用中位衩。
綜上蚁署,敏感詞過濾是一種阻止網(wǎng)絡(luò)暴力和網(wǎng)絡(luò)犯罪的非常有效的手段,但有時候它也會因為其關(guān)鍵詞而誤傷用戶蚂四,造成一些讓人啼笑皆非的問題,比如下面這個流傳甚廣的段子:
半夜IDC急電哪痰,“你的網(wǎng)站有涉嫌的關(guān)鍵詞遂赠,請立即刪除!”站長立即從被窩里爬起晌杰,冒著零下10度的嚴(yán)寒上網(wǎng)跷睦,找那個違法關(guān)鍵詞。最后找到的是這樣一條信息:轉(zhuǎn)讓一臺獨立服務(wù)器肋演。
在用戶發(fā)布比較大段的文字或文章時抑诸,特別是一些UCG社區(qū),例如美食評論爹殊、酒店居住體驗蜕乡、活動體驗、游記等等梗夸,龐大的敏感詞庫+過于苛刻的匹配規(guī)則+用戶端阻止發(fā)布就可能會誤傷到普通用戶层玲,對普通用戶的使用體驗造成嚴(yán)重傷害。
而且隨著各應(yīng)用的系統(tǒng)不斷改進(jìn)升級和擴(kuò)充自己的敏感詞庫,惡意發(fā)布者的規(guī)避敏感詞過濾的手段也在不斷升級進(jìn)步辛块,特別是在缺少人工審核的情況下畔派,發(fā)布者很容易就可以通過某些技術(shù)手段,如加密润绵、替換字符线椰、諧音字、同義字來規(guī)避這種過濾尘盼。
這是一場沒有硝煙的戰(zhàn)爭憨愉,這是一種無聲的軍備競賽,系統(tǒng)和惡意發(fā)布者之間相互博弈悔叽,最后造成的結(jié)果就是:關(guān)鍵詞庫越來越龐大莱衩,龐大到已經(jīng)干擾到了普通用戶正常發(fā)布UGC內(nèi)容的程度了。
我有個朋友就是這種軍備競賽的犧牲者娇澎,她在忍無可忍的情況下在朋友圈發(fā)布了這樣的動態(tài):
她在口碑上想要發(fā)布自己的美食分享笨蚁,但系統(tǒng)總是提示有敏感詞,但敏感詞是什么趟庄?系統(tǒng)卻又不告訴她括细,最后她憑著自己的不懈努力,終于發(fā)現(xiàn)是這個美食店的一款【法式禽獸漢堡】里的“禽獸”二字命中了敏感詞庫戚啥,所以被阻止發(fā)布奋单。
而我自己也曾經(jīng)多次在不同的UCG社區(qū)碰到過類似問題,特別是在移動端猫十,這種敏感詞過濾機(jī)制簡直是“反人類”的“劣幣驅(qū)逐良幣”過濾機(jī)制览濒,因為優(yōu)質(zhì)用戶才會輸入較長的文字信息,又因為文字信息很長拖云,導(dǎo)致命中敏感詞的風(fēng)險急劇上升贷笛,而又因為文字信息很長,導(dǎo)致排查敏感字非常困難宙项,查理芒格曾說“如果你告訴我將會死在哪個地方乏苦,我以后就絕對不會去那兒”,但這些系統(tǒng)卻絕口不提我們會死在哪兒尤筐,讓我們沒有目標(biāo)地瞎轉(zhuǎn)亂撞汇荐,很多時候,精疲力盡的用戶會選擇放棄發(fā)布信息盆繁,甚至進(jìn)而影響它對整個應(yīng)用的使用體驗掀淘,從而放棄整個應(yīng)用。
我曾經(jīng)在一個書評應(yīng)用上發(fā)布一篇讀后感時油昂,被系統(tǒng)冰冷地提示“不符合發(fā)布要求”繁疤,為了找出那個該死的敏感詞咖为,把所有的文字全選拷貝放到編輯軟件里,然后一段一段拷貝到書評應(yīng)用中稠腊,等我嘗試到第3段時躁染,系統(tǒng)冷冷地提示我:“您已保存提交太多次,請休息一會兒”架忌,那一刻吞彤,我確定我是崩潰的。
所以叹放,系統(tǒng)在設(shè)計敏感詞過濾體系的時候饰恕,肯定是要綜合考慮公司將會付出的成本和用戶體驗,但如果單純?yōu)榱顺杀竞蛯徍说燃壙紤]井仰,而把所有的風(fēng)險和責(zé)任都推到用戶這一邊埋嵌,我不認(rèn)為這是一種明智的做法。