對于敏感詞過濾拨与,我們只能選擇讓用戶“痛不欲生”嗎稻据?

敏感詞過濾是隨著互聯(lián)網(wǎng)社區(qū)發(fā)展一起發(fā)展起來的一種阻止網(wǎng)絡(luò)犯罪和網(wǎng)絡(luò)暴力的技術(shù)手段,通過對可能存在犯罪或網(wǎng)絡(luò)暴力可能的關(guān)鍵詞進(jìn)行有針對性的篩查和屏蔽买喧,很多時候我們能夠防患于未然捻悯,把后果嚴(yán)重的犯罪行為扼殺于萌芽之中匆赃。

敏感詞過濾系統(tǒng)

隨著互聯(lián)網(wǎng)社區(qū)和UGC應(yīng)用的不斷發(fā)展變化,敏感詞過濾系統(tǒng)也經(jīng)歷了不斷的發(fā)展演進(jìn)秋度,有如下多種過濾方式:

01. 敏感詞替換

敏感詞替換是較早出現(xiàn)的一種敏感詞過濾方式炸庞,即系統(tǒng)不會在用戶端進(jìn)行敏感詞過濾和校驗,而是把這個工作放在數(shù)據(jù)入庫之前完成荚斯,在數(shù)據(jù)寫入數(shù)據(jù)庫之前埠居,系統(tǒng)根據(jù)已經(jīng)制定的規(guī)則把所有敏感詞替換為設(shè)定好的符號或文字,這個過程是不可逆的事期。

敏感詞替換

這種技術(shù)手段對于阻止網(wǎng)絡(luò)暴力成效顯著滥壕,用戶在閱讀其他人的發(fā)布信息時,不會再看到那些刺眼的侮辱性的字眼兽泣,但又不會太過于破壞發(fā)布者的本意绎橘,同時也不會對用戶閱讀造成很大干擾和障礙,尤其是在聊天室或群組等場景中表現(xiàn)優(yōu)異唠倦。

但這種過濾方式仍然可能會對普通用戶造成“隱性騷擾”称鳞,因為我們基本可以憑借上下文來基本猜出那些被替換成“***”的本來面目。

02. 敏感詞屏蔽

敏感詞屏蔽就是發(fā)布的信息里的敏感詞被直接去除稠鼻,再寫入數(shù)據(jù)庫冈止,這種方式能最大程度上避免對普通用戶的“隱性騷擾”,但隨之而來的代價就是可能會造成發(fā)布信息的可讀性下降候齿,甚至影響到閱讀體驗熙暴。

03. 用戶端阻止發(fā)布

用戶端阻止發(fā)布是指系統(tǒng)在用戶發(fā)布信息時對信息進(jìn)行本地或服務(wù)器端敏感詞校驗,一旦發(fā)現(xiàn)用戶發(fā)布的信息有詞匯符合敏感詞過濾條件慌盯,即阻止用戶的發(fā)布操作并返回提示信息周霉,提示用戶有敏感詞不符合發(fā)布要求,并要求用戶修改自己發(fā)布的信息亚皂。

這種過濾方式能夠最大程度上降低系統(tǒng)自身的安全風(fēng)險并顯著降低人工審核的成本俱箱,在用戶輸入昵稱,輸入簡單介紹時效果最佳孕讳。

短文字用戶端屏蔽敏感詞效果好

04. 系統(tǒng)人工審核

在UGC內(nèi)容不是特別多或搭配AI識別敏感詞的情況下匠楚,系統(tǒng)可以允許用戶首先發(fā)布自己的信息,再使用AI輔助方式找出存在敏感詞風(fēng)險的發(fā)布信息厂财,由人工進(jìn)行審核芋簿,符合條件或者被“誤傷”者放行,屬于惡意發(fā)布信息的則人工刪除并通知發(fā)布者璃饱。

這是一種對用戶體驗傷害最小的与斤,最人性化的敏感詞過濾方式,但隨之而來的可能也是冷人咋舌的人工成本。

05. “小黑屋”

系統(tǒng)允許用戶發(fā)布信息撩穿,但用戶發(fā)布后使用AI輔助方式找出存在敏感詞風(fēng)險的發(fā)布信息并批量導(dǎo)入“小黑屋”磷支,然后通知發(fā)布者進(jìn)行修改,一直到系統(tǒng)不再提示有敏感詞風(fēng)險為止食寡。

這種方式能夠保證用戶端發(fā)布時的體驗的流暢性雾狈,但因為沒有人工審核參與,敏感詞風(fēng)險通知的發(fā)送是異步的抵皱,用戶可能在發(fā)布后離開應(yīng)用善榛,過很長時間返回后,發(fā)現(xiàn)發(fā)布的信息被關(guān)入“小黑屋”呻畸,還要自己主動排查猜測屏蔽原因移盆,這種挫折感和用戶體驗問題也是非常嚴(yán)重的。

06. 僅發(fā)布者可見

有些UCG社區(qū)采用了這種敏感詞風(fēng)險控制機(jī)制伤为,命中了敏感詞的文章或信息咒循,系統(tǒng)暗暗地把信息設(shè)置為僅發(fā)布者自己可見,而發(fā)布者可能還為自己的信息沒有瀏覽和點擊而疑惑不解绞愚,這真是讓發(fā)布者“死得不明不白”叙甸,這種過濾機(jī)制真是非常奇葩,但它卻真實地存在很多應(yīng)用中位衩。

綜上蚁署,敏感詞過濾是一種阻止網(wǎng)絡(luò)暴力和網(wǎng)絡(luò)犯罪的非常有效的手段,但有時候它也會因為其關(guān)鍵詞而誤傷用戶蚂四,造成一些讓人啼笑皆非的問題,比如下面這個流傳甚廣的段子:

半夜IDC急電哪痰,“你的網(wǎng)站有涉嫌的關(guān)鍵詞遂赠,請立即刪除!”站長立即從被窩里爬起晌杰,冒著零下10度的嚴(yán)寒上網(wǎng)跷睦,找那個違法關(guān)鍵詞。最后找到的是這樣一條信息:轉(zhuǎn)讓一臺獨立服務(wù)器肋演。

在用戶發(fā)布比較大段的文字或文章時抑诸,特別是一些UCG社區(qū),例如美食評論爹殊、酒店居住體驗蜕乡、活動體驗、游記等等梗夸,龐大的敏感詞庫+過于苛刻的匹配規(guī)則+用戶端阻止發(fā)布就可能會誤傷到普通用戶层玲,對普通用戶的使用體驗造成嚴(yán)重傷害。

而且隨著各應(yīng)用的系統(tǒng)不斷改進(jìn)升級和擴(kuò)充自己的敏感詞庫,惡意發(fā)布者的規(guī)避敏感詞過濾的手段也在不斷升級進(jìn)步辛块,特別是在缺少人工審核的情況下畔派,發(fā)布者很容易就可以通過某些技術(shù)手段,如加密润绵、替換字符线椰、諧音字、同義字來規(guī)避這種過濾尘盼。

這是一場沒有硝煙的戰(zhàn)爭憨愉,這是一種無聲的軍備競賽,系統(tǒng)和惡意發(fā)布者之間相互博弈悔叽,最后造成的結(jié)果就是:關(guān)鍵詞庫越來越龐大莱衩,龐大到已經(jīng)干擾到了普通用戶正常發(fā)布UGC內(nèi)容的程度了。

我有個朋友就是這種軍備競賽的犧牲者娇澎,她在忍無可忍的情況下在朋友圈發(fā)布了這樣的動態(tài):

"敏感詞"讓用戶猜不透

她在口碑上想要發(fā)布自己的美食分享笨蚁,但系統(tǒng)總是提示有敏感詞,但敏感詞是什么趟庄?系統(tǒng)卻又不告訴她括细,最后她憑著自己的不懈努力,終于發(fā)現(xiàn)是這個美食店的一款【法式禽獸漢堡】里的“禽獸”二字命中了敏感詞庫戚啥,所以被阻止發(fā)布奋单。

而我自己也曾經(jīng)多次在不同的UCG社區(qū)碰到過類似問題,特別是在移動端猫十,這種敏感詞過濾機(jī)制簡直是“反人類”的“劣幣驅(qū)逐良幣”過濾機(jī)制览濒,因為優(yōu)質(zhì)用戶才會輸入較長的文字信息,又因為文字信息很長拖云,導(dǎo)致命中敏感詞的風(fēng)險急劇上升贷笛,而又因為文字信息很長,導(dǎo)致排查敏感字非常困難宙项,查理芒格曾說“如果你告訴我將會死在哪個地方乏苦,我以后就絕對不會去那兒”,但這些系統(tǒng)卻絕口不提我們會死在哪兒尤筐,讓我們沒有目標(biāo)地瞎轉(zhuǎn)亂撞汇荐,很多時候,精疲力盡的用戶會選擇放棄發(fā)布信息盆繁,甚至進(jìn)而影響它對整個應(yīng)用的使用體驗掀淘,從而放棄整個應(yīng)用。

我曾經(jīng)在一個書評應(yīng)用上發(fā)布一篇讀后感時油昂,被系統(tǒng)冰冷地提示“不符合發(fā)布要求”繁疤,為了找出那個該死的敏感詞咖为,把所有的文字全選拷貝放到編輯軟件里,然后一段一段拷貝到書評應(yīng)用中稠腊,等我嘗試到第3段時躁染,系統(tǒng)冷冷地提示我:“您已保存提交太多次,請休息一會兒”架忌,那一刻吞彤,我確定我是崩潰的。

所以叹放,系統(tǒng)在設(shè)計敏感詞過濾體系的時候饰恕,肯定是要綜合考慮公司將會付出的成本和用戶體驗,但如果單純?yōu)榱顺杀竞蛯徍说燃壙紤]井仰,而把所有的風(fēng)險和責(zé)任都推到用戶這一邊埋嵌,我不認(rèn)為這是一種明智的做法。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末俱恶,一起剝皮案震驚了整個濱河市雹嗦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌合是,老刑警劉巖了罪,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異聪全,居然都是意外死亡泊藕,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門难礼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來娃圆,“玉大人,你說我怎么就攤上這事蛾茉∮徊停” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵臀稚,是天一觀的道長。 經(jīng)常有香客問我三痰,道長吧寺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任散劫,我火速辦了婚禮稚机,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘获搏。我一直安慰自己赖条,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著纬乍,像睡著了一般碱茁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上仿贬,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天纽竣,我揣著相機(jī)與錄音,去河邊找鬼茧泪。 笑死蜓氨,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的队伟。 我是一名探鬼主播穴吹,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼嗜侮!你這毒婦竟也來了港令?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤棘钞,失蹤者是張志新(化名)和其女友劉穎缠借,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宜猜,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡泼返,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了姨拥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片绅喉。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖叫乌,靈堂內(nèi)的尸體忽然破棺而出柴罐,到底是詐尸還是另有隱情,我是刑警寧澤憨奸,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布革屠,位于F島的核電站,受9級特大地震影響排宰,放射性物質(zhì)發(fā)生泄漏似芝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一板甘、第九天 我趴在偏房一處隱蔽的房頂上張望党瓮。 院中可真熱鬧,春花似錦盐类、人聲如沸寞奸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽枪萄。三九已至隐岛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間呻引,已是汗流浹背礼仗。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留逻悠,地道東北人元践。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像童谒,于是被迫代替她去往敵國和親单旁。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容