內(nèi)容審核邏輯|從入門到被門檻絆倒

文章開始之前辙诞,給大家兩條建議:

1.除非你別無選擇,盡可能不要從事純粹內(nèi)容審核崗位
2.如果你的工作和運(yùn)營或產(chǎn)品有關(guān)腿堤,都需要了解內(nèi)容審核的邏輯

兒童送養(yǎng)”這個(gè)話題在大多平臺都是極為罕見的母截,但知乎最近就因此爆發(fā)了一場危及平臺聲譽(yù)的危機(jī)。

image

內(nèi)容審核就是這樣一種職業(yè)布讹,違法違規(guī)信息覆蓋范圍極廣,新的違規(guī)信息層出不窮训堆。無論你多么有經(jīng)驗(yàn)描验、無論審核系統(tǒng)多么先進(jìn),只要發(fā)生問題蔫慧,看起來都是很基礎(chǔ)甚至很愚蠢的問題挠乳。

知乎這樣一個(gè)有很強(qiáng)的技術(shù)實(shí)力和內(nèi)容審核經(jīng)驗(yàn)的平臺,也會在這個(gè)問題上摔跟頭,并且可以預(yù)料的是睡扬,不知道在多久的以后盟蚣,知乎一定還會發(fā)生一次又一次因?yàn)榇嬖谶`規(guī)內(nèi)容帶來的危機(jī)事件,這事情無可避免卖怜。有人說屎开,對于內(nèi)容審核人員來說這是從入門到被門檻絆倒,一點(diǎn)都不夸張马靠。

讀完這篇文章奄抽,你可以詳細(xì)了解文字類內(nèi)容審核的邏輯,還會了解一些圖片和短視頻審核的技術(shù)甩鳄,足以補(bǔ)充一個(gè)運(yùn)營或產(chǎn)品在這方面的知識儲備了逞度。

在不同公司,對審核類職位的劃分標(biāo)準(zhǔn)不同妙啃,比如有內(nèi)容安全審核档泽、內(nèi)容推薦審核、內(nèi)容質(zhì)量審核等類似職位揖赴。雖然在側(cè)重點(diǎn)和具體操作上有所不同馆匿,但有許多邏輯都是共通的。為了避免文章過于復(fù)雜燥滑,我們在這里側(cè)重最常見的內(nèi)容安全審核渐北。

1審核模塊

不管是什么內(nèi)容的審核,都應(yīng)該包含以下四個(gè)基礎(chǔ)模塊:機(jī)器審核铭拧、人工審核赃蛛、用戶投訴審核、結(jié)果復(fù)審羽历。

image.png

機(jī)器審核焊虏,是按照制定好的規(guī)則或機(jī)器學(xué)習(xí)算法對內(nèi)容進(jìn)行審核淡喜,通常秕磷,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動審核并做出處理。確定有問題的會被自動刪除炼团,難以判斷是否有問題的會被標(biāo)注澎嚣,進(jìn)入人工審核程序。

人工審核瘟芝,雖然用戶投訴審核和結(jié)果復(fù)審大多時(shí)候也是人工審核易桃,但這里所說的人工審核,特指審核機(jī)器無法判別的內(nèi)容锌俱,通常占平臺內(nèi)容數(shù)量的比例不超過5%晤郑,但對于一些大型的內(nèi)容平臺,絕對數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時(shí)代造寝,我們看到許多平臺在全國都有多個(gè)審核中心磕洪,每個(gè)審核中心的員工數(shù)量都成千甚至上萬。

用戶投訴審核诫龙,是前兩者的彌補(bǔ)析显,有很多違規(guī)內(nèi)容以前沒有出現(xiàn)過,所以不在規(guī)則可以過濾的范圍內(nèi)签赃,或者非常隱蔽谷异,規(guī)則難以嚴(yán)格過濾。用戶的投訴是發(fā)現(xiàn)新問題的重要渠道锦聊。通過知乎的危機(jī)事件歹嘹,我們更應(yīng)該重視對投訴的審核,并及時(shí)據(jù)此對機(jī)器審核做出補(bǔ)充孔庭。

結(jié)果復(fù)審荞下,通常采取抽查方式,比如通過復(fù)審機(jī)器刪除的內(nèi)容史飞,看規(guī)則或算法是否過于嚴(yán)格尖昏;比如通過查看人工刪除和通過的內(nèi)容,看員工的工作是否按要求執(zhí)行构资;比如通過內(nèi)容的整體巡查抽诉,看是否存在新的問題未被注意到。

在文字類內(nèi)容平臺吐绵,比如知乎迹淌、簡書、豆瓣以及各類論壇網(wǎng)站己单,機(jī)器審核主要是基于關(guān)鍵詞過濾的邏輯唉窃,邏輯比較簡單,但也沒有想象的那么簡單纹笼。

2關(guān)鍵詞過濾

一篇文章發(fā)布到平臺后纹份,需要至少經(jīng)歷以下環(huán)節(jié):

image.png

詞語過濾的環(huán)節(jié),關(guān)鍵詞主要分為三類:

image.png

禁止關(guān)鍵詞廷痘,只要匹配到這個(gè)詞蔓涧,內(nèi)容就被自動刪除或禁止提交。通常只有極少數(shù)詞會被納入禁止關(guān)鍵詞笋额,比如明確的色情元暴、邪教以及廣告的專屬關(guān)鍵詞。

審核關(guān)鍵詞兄猩,這是最常見的關(guān)鍵詞種類茉盏,只要匹配到就會自動進(jìn)入后臺進(jìn)行審核鉴未,文章中的關(guān)鍵詞會被高亮并羅列出來,有助于審核人員快速判斷鸠姨。審核關(guān)鍵詞也應(yīng)該盡量是專屬關(guān)鍵詞歼狼,以防止太多內(nèi)容被攔截到后臺。

替換關(guān)鍵詞享怀,在許多平臺羽峰,我們會在文中看到莫名的字母縮寫*,這可能不是文章作者寫的添瓷,而是這個(gè)詞被系統(tǒng)自動替換梅屉。平臺不希望出現(xiàn)這個(gè)關(guān)鍵詞,但用別的代替讀者通常也能讀懂鳞贷。比如一些政治坯汤、宗教、不文明用語類詞語搀愧,都有可能被自動替換惰聂。

image.png

當(dāng)然,管理員在添加關(guān)鍵詞時(shí)咱筛,很多時(shí)候并不是直接把關(guān)鍵詞添加到后臺搓幌。否則用戶用很簡單的方式就可以避過關(guān)鍵詞過濾,比如在關(guān)鍵詞內(nèi)加一個(gè)空格迅箩,系統(tǒng)就難以匹配到溉愁。

所以,一般后臺都會支持限定符{x} 以限定相鄰兩字符間可忽略的文字饲趋,x 是忽略的字節(jié)數(shù)拐揭。在Discuz!網(wǎng)站后臺有明確說明,如 "a{1}s{2}s"(不含引號) 可以過濾 "ass" 也可過濾 "axsxs" 和 "axsxxs" 等等奕塑。對于中文字符堂污,若使用 GBK、Big-5 版本龄砰,每個(gè)中文字符相當(dāng)于 2 個(gè)字節(jié)盟猖;若使用 UTF-8 版本,每個(gè)中文字符相當(dāng)于 3 個(gè)字節(jié)寝贡。

另外扒披,關(guān)鍵詞還可以支持正則表達(dá)式值依,來匹配具有一定模式的關(guān)鍵詞圃泡,比如"/1\d{10}([^\d]+|$)/"(不包括引號)用來匹配手機(jī)號碼。正則表達(dá)式的內(nèi)容過多愿险,大家有興趣可以搜索學(xué)習(xí)一下颇蜡。

3技術(shù)概覽

以上講述的价说,主要是文字類內(nèi)容的審核和規(guī)則,邏輯簡單风秤,但應(yīng)用最為廣泛鳖目。近年隨著短視頻類產(chǎn)品的興起,內(nèi)容審核的邏輯需要更加深層的技術(shù)支持缤弦。

技術(shù)上的東西领迈,對大多人來說如同天書,而且也沒有必要深入了解碍沐。我們挑選幾個(gè)容易理解的點(diǎn)狸捅,來窺探幾分內(nèi)容審核背后的技術(shù)。

image

來源:某相關(guān)產(chǎn)品宣傳網(wǎng)頁

OCR(文本識別技術(shù))累提,主要用來識別圖片中存在的文字尘喝。許多違規(guī)內(nèi)容,包括聯(lián)系方式斋陪、色情信息朽褪、廣告信息等為了規(guī)避審核,都會以圖片的方式呈現(xiàn)无虚。

人臉識別技術(shù)缔赠,通常用來識別政治、宗教類人物友题,識別到后可以直接刪除或者進(jìn)行風(fēng)險(xiǎn)標(biāo)記橡淑。

語音識別技術(shù),語音識別的應(yīng)用場景比較多咆爽,但在內(nèi)容審核領(lǐng)域仍然不是剛需梁棠,所以使用的較少。但也有些直播或音頻平臺比較重視音頻對比斗埂、聲紋識別技術(shù)符糊,可以輕易識別到一些固定模式的違法違規(guī)聲音。

視頻識別≈圖片識別呛凶,視頻是畫面與音頻組成的以幀為單位的畫面男娄,通常采取截幀上傳與服務(wù)器數(shù)據(jù)對比來識別。審核模式和圖片審核相同漾稀,比如通過畫面皮膚裸露狀態(tài)來判斷是否過于性感模闲、是否是色情內(nèi)容。

上下文語義識別技術(shù)崭捍,這種技術(shù)用來判斷一句話是否能跟上下文結(jié)合尸折,是否是一段垃圾文本。比如說殷蛇,在評論區(qū)隨便輸入一串奇怪的文本实夹,如果系統(tǒng)認(rèn)為和上下文不相關(guān)橄浓,就有理由將內(nèi)容放入審核區(qū)。

技術(shù)是很酷亮航,用好了可以大量減少我們的工作荸实,但內(nèi)容審核技術(shù)的實(shí)施是一件很難一勞永逸的事情,其中的尺度和參數(shù)都需要人來不斷維護(hù)缴淋,而且人工審核仍然是非常有必要的准给,并且需要的人工可能越來越多。內(nèi)容審核技術(shù)的應(yīng)用重抖,仍然任重道遠(yuǎn)圆存。

4常見問題

1.替代關(guān)鍵詞不能太簡單

我曾經(jīng)在一款A(yù)PP上看管理類文章,整篇文章多處說到給員工定績效要遵循“ART原則”仇哆,我遲疑了好幾秒才明白沦辙,原來是"SMART原則**"。

SM這個(gè)詞只有兩個(gè)字母讹剔,無論是作為禁止油讯、審核還是替換關(guān)鍵詞都不合適,都容易攔截或替換大量不應(yīng)該處理的內(nèi)容延欠,一般的方法很難處理陌兑。

這時(shí)候,我們可以總結(jié)一下模式由捎,如果sm這兩個(gè)字母前面是英文字母兔综,或者后面是英文字母,一般來說就是另一個(gè)英文單詞狞玛,就不會有問題软驰。我們就可以用正則表達(dá)式把這一規(guī)則寫出來,再設(shè)置審核或替換就會好很多心肪。

2.審核時(shí)間與用戶體驗(yàn)的權(quán)衡

去知乎和微博搜一下“審核”锭亏,被抱怨最多的問題就是審核時(shí)間長。用戶提交內(nèi)容到內(nèi)容審核通過硬鞍,這期間心情會劇烈波動慧瘤,如果用戶等了一兩天時(shí)間,最后內(nèi)容被莫名其妙地拒絕固该,而且不給任何明確的拒絕理由锅减,用戶的心情就會由期待變?yōu)榻箲],進(jìn)而變成憤怒伐坏,這就是B站被up主抱怨最多的地方怔匣。

我們可以從以下角度優(yōu)化用戶體驗(yàn):

  • 用戶提交內(nèi)容后,正常呈現(xiàn)已發(fā)布的內(nèi)容狀態(tài)著淆,可以反復(fù)編輯劫狠,只是給出狀態(tài)提示拴疤,提示內(nèi)容正在審核永部,如果有必要可以提示一般多久可以審核完独泞。

  • 用戶提交內(nèi)容后,如果進(jìn)入審核苔埋,但覺得問題不大懦砂,或者用戶歷史記錄良好,可以自動進(jìn)入“限流”狀態(tài)组橄,即只允許自己和粉絲/好友觀看荞膘。待審核通過后,開放給所有人玉工。這期間不需要給用戶任何提示羽资。

  • 用戶內(nèi)容被拒后,原因是可以找到依據(jù)遵班、可以確定的屠升。很多平臺都是讓用戶具體原因參考某某規(guī)范文檔,但這個(gè)文檔里又是一堆大而化之的空話狭郑。許多時(shí)候機(jī)器審核是存在誤刪的可能的腹暖,這時(shí)候如果申訴渠道也不能及時(shí)反饋,就會讓人非澈踩火大脏答。

  • 優(yōu)質(zhì)賬號設(shè)為信任賬戶或優(yōu)先審核。比如官方賬號亩鬼、以前從沒出現(xiàn)問題的老賬號殖告,至少應(yīng)當(dāng)做到優(yōu)先審核,甚至直接放開雳锋,先放后審丛肮。

3.理解內(nèi)容審核的保守傾向

越是體量很大的平臺,內(nèi)容審核越是有保守傾向魄缚,這不只是因?yàn)楸P子大了更加在意風(fēng)險(xiǎn)管理宝与,還有一些現(xiàn)實(shí)的原因。內(nèi)容數(shù)量太多冶匹,平臺就不得不采用規(guī)則和算法去審核习劫,這些規(guī)則和算法需要最終做出決策,就難免拿著標(biāo)準(zhǔn)一刀切嚼隘,即使這把刀很小也會有誤傷诽里,這種標(biāo)準(zhǔn)對很多內(nèi)容就顯得過于嚴(yán)格。

比如皮膚裸露面積達(dá)到多少會有問題飞蛹、裸露哪些位置會有問題谤狡,無論標(biāo)準(zhǔn)多么的細(xì)化灸眼,都會存在誤判,被誤判的內(nèi)容比例可能很小墓懂,但絕對數(shù)量很大焰宣。據(jù)說很多圖片和視頻中如果存在加菲貓,都會被過濾掉捕仔,因?yàn)樗S色面積太大而且和人的皮膚很像匕积。

在被審核的用戶看來這些標(biāo)準(zhǔn)有點(diǎn)保守,有點(diǎn)不近人情榜跌,甚至可笑闪唆。平臺的管理人員也知道問題,但他們很難做到很細(xì)致钓葫,為了快速把違規(guī)的內(nèi)容剔除悄蕾,只能犧牲掉一部分人的用戶體驗(yàn),畢竟違規(guī)內(nèi)容一旦出現(xiàn)础浮,對平臺來說就是大問題帆调。所以說,內(nèi)容審核技術(shù)的應(yīng)用還非常任重道遠(yuǎn)霸旗。

以上的內(nèi)容贷帮,對于一個(gè)運(yùn)營或產(chǎn)品工作者來說,已經(jīng)足夠了诱告。但如果你真的需要對一款產(chǎn)品的內(nèi)容審核規(guī)范負(fù)責(zé)撵枢,就需要去學(xué)習(xí)更多知識,需要有更加專業(yè)的精神和更謹(jǐn)慎的態(tài)度精居,未來還會有無數(shù)難以預(yù)料的坎坷等著你锄禽。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市靴姿,隨后出現(xiàn)的幾起案子沃但,更是在濱河造成了極大的恐慌,老刑警劉巖佛吓,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宵晚,死亡現(xiàn)場離奇詭異,居然都是意外死亡维雇,警方通過查閱死者的電腦和手機(jī)淤刃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吱型,“玉大人逸贾,你說我怎么就攤上這事。” “怎么了铝侵?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵灼伤,是天一觀的道長。 經(jīng)常有香客問我咪鲜,道長狐赡,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任嗜诀,我火速辦了婚禮猾警,結(jié)果婚禮上孔祸,老公的妹妹穿的比我還像新娘隆敢。我一直安慰自己,他們只是感情好崔慧,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布拂蝎。 她就那樣靜靜地躺著,像睡著了一般惶室。 火紅的嫁衣襯著肌膚如雪温自。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天皇钞,我揣著相機(jī)與錄音悼泌,去河邊找鬼。 笑死夹界,一個(gè)胖子當(dāng)著我的面吹牛馆里,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播可柿,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼鸠踪,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了复斥?” 一聲冷哼從身側(cè)響起营密,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎目锭,沒想到半個(gè)月后评汰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡痢虹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年被去,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片世分。...
    茶點(diǎn)故事閱讀 38,646評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡编振,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情踪央,我是刑警寧澤臀玄,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站畅蹂,受9級特大地震影響健无,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜液斜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一累贤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧少漆,春花似錦臼膏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至检访,卻和暖如春始鱼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背脆贵。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工医清, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人卖氨。 一個(gè)月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓会烙,卻偏偏與公主長得像,于是被迫代替她去往敵國和親双泪。 傳聞我的和親對象是個(gè)殘疾皇子持搜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評論 2 348