文章開始之前辙诞,給大家兩條建議:
1.除非你別無選擇,盡可能不要從事純粹內(nèi)容審核崗位
2.如果你的工作和運(yùn)營或產(chǎn)品有關(guān)腿堤,都需要了解內(nèi)容審核的邏輯
“兒童送養(yǎng)”這個(gè)話題在大多平臺都是極為罕見的母截,但知乎最近就因此爆發(fā)了一場危及平臺聲譽(yù)的危機(jī)。
內(nèi)容審核就是這樣一種職業(yè)布讹,違法違規(guī)信息覆蓋范圍極廣,新的違規(guī)信息層出不窮训堆。無論你多么有經(jīng)驗(yàn)描验、無論審核系統(tǒng)多么先進(jìn),只要發(fā)生問題蔫慧,看起來都是很基礎(chǔ)甚至很愚蠢的問題挠乳。
知乎這樣一個(gè)有很強(qiáng)的技術(shù)實(shí)力和內(nèi)容審核經(jīng)驗(yàn)的平臺,也會在這個(gè)問題上摔跟頭,并且可以預(yù)料的是睡扬,不知道在多久的以后盟蚣,知乎一定還會發(fā)生一次又一次因?yàn)榇嬖谶`規(guī)內(nèi)容帶來的危機(jī)事件,這事情無可避免卖怜。有人說屎开,對于內(nèi)容審核人員來說這是從入門到被門檻絆倒,一點(diǎn)都不夸張马靠。
讀完這篇文章奄抽,你可以詳細(xì)了解文字類內(nèi)容審核的邏輯,還會了解一些圖片和短視頻審核的技術(shù)甩鳄,足以補(bǔ)充一個(gè)運(yùn)營或產(chǎn)品在這方面的知識儲備了逞度。
在不同公司,對審核類職位的劃分標(biāo)準(zhǔn)不同妙啃,比如有內(nèi)容安全審核档泽、內(nèi)容推薦審核、內(nèi)容質(zhì)量審核等類似職位揖赴。雖然在側(cè)重點(diǎn)和具體操作上有所不同馆匿,但有許多邏輯都是共通的。為了避免文章過于復(fù)雜燥滑,我們在這里側(cè)重最常見的內(nèi)容安全審核渐北。
1審核模塊
不管是什么內(nèi)容的審核,都應(yīng)該包含以下四個(gè)基礎(chǔ)模塊:機(jī)器審核铭拧、人工審核赃蛛、用戶投訴審核、結(jié)果復(fù)審羽历。
機(jī)器審核焊虏,是按照制定好的規(guī)則或機(jī)器學(xué)習(xí)算法對內(nèi)容進(jìn)行審核淡喜,通常秕磷,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動審核并做出處理。確定有問題的會被自動刪除炼团,難以判斷是否有問題的會被標(biāo)注澎嚣,進(jìn)入人工審核程序。
人工審核瘟芝,雖然用戶投訴審核和結(jié)果復(fù)審大多時(shí)候也是人工審核易桃,但這里所說的人工審核,特指審核機(jī)器無法判別的內(nèi)容锌俱,通常占平臺內(nèi)容數(shù)量的比例不超過5%晤郑,但對于一些大型的內(nèi)容平臺,絕對數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時(shí)代造寝,我們看到許多平臺在全國都有多個(gè)審核中心磕洪,每個(gè)審核中心的員工數(shù)量都成千甚至上萬。
用戶投訴審核诫龙,是前兩者的彌補(bǔ)析显,有很多違規(guī)內(nèi)容以前沒有出現(xiàn)過,所以不在規(guī)則可以過濾的范圍內(nèi)签赃,或者非常隱蔽谷异,規(guī)則難以嚴(yán)格過濾。用戶的投訴是發(fā)現(xiàn)新問題的重要渠道锦聊。通過知乎的危機(jī)事件歹嘹,我們更應(yīng)該重視對投訴的審核,并及時(shí)據(jù)此對機(jī)器審核做出補(bǔ)充孔庭。
結(jié)果復(fù)審荞下,通常采取抽查方式,比如通過復(fù)審機(jī)器刪除的內(nèi)容史飞,看規(guī)則或算法是否過于嚴(yán)格尖昏;比如通過查看人工刪除和通過的內(nèi)容,看員工的工作是否按要求執(zhí)行构资;比如通過內(nèi)容的整體巡查抽诉,看是否存在新的問題未被注意到。
在文字類內(nèi)容平臺吐绵,比如知乎迹淌、簡書、豆瓣以及各類論壇網(wǎng)站己单,機(jī)器審核主要是基于關(guān)鍵詞過濾的邏輯唉窃,邏輯比較簡單,但也沒有想象的那么簡單纹笼。
2關(guān)鍵詞過濾
一篇文章發(fā)布到平臺后纹份,需要至少經(jīng)歷以下環(huán)節(jié):
詞語過濾的環(huán)節(jié),關(guān)鍵詞主要分為三類:
禁止關(guān)鍵詞廷痘,只要匹配到這個(gè)詞蔓涧,內(nèi)容就被自動刪除或禁止提交。通常只有極少數(shù)詞會被納入禁止關(guān)鍵詞笋额,比如明確的色情元暴、邪教以及廣告的專屬關(guān)鍵詞。
審核關(guān)鍵詞兄猩,這是最常見的關(guān)鍵詞種類茉盏,只要匹配到就會自動進(jìn)入后臺進(jìn)行審核鉴未,文章中的關(guān)鍵詞會被高亮并羅列出來,有助于審核人員快速判斷鸠姨。審核關(guān)鍵詞也應(yīng)該盡量是專屬關(guān)鍵詞歼狼,以防止太多內(nèi)容被攔截到后臺。
替換關(guān)鍵詞享怀,在許多平臺羽峰,我們會在文中看到莫名的號或字母縮寫*,這可能不是文章作者寫的添瓷,而是這個(gè)詞被系統(tǒng)自動替換梅屉。平臺不希望出現(xiàn)這個(gè)關(guān)鍵詞,但用別的代替讀者通常也能讀懂鳞贷。比如一些政治坯汤、宗教、不文明用語類詞語搀愧,都有可能被自動替換惰聂。
當(dāng)然,管理員在添加關(guān)鍵詞時(shí)咱筛,很多時(shí)候并不是直接把關(guān)鍵詞添加到后臺搓幌。否則用戶用很簡單的方式就可以避過關(guān)鍵詞過濾,比如在關(guān)鍵詞內(nèi)加一個(gè)空格迅箩,系統(tǒng)就難以匹配到溉愁。
所以,一般后臺都會支持限定符{x} 以限定相鄰兩字符間可忽略的文字饲趋,x 是忽略的字節(jié)數(shù)拐揭。在Discuz!網(wǎng)站后臺有明確說明,如 "a{1}s{2}s"(不含引號) 可以過濾 "ass" 也可過濾 "axsxs" 和 "axsxxs" 等等奕塑。對于中文字符堂污,若使用 GBK、Big-5 版本龄砰,每個(gè)中文字符相當(dāng)于 2 個(gè)字節(jié)盟猖;若使用 UTF-8 版本,每個(gè)中文字符相當(dāng)于 3 個(gè)字節(jié)寝贡。
另外扒披,關(guān)鍵詞還可以支持正則表達(dá)式值依,來匹配具有一定模式的關(guān)鍵詞圃泡,比如"/1\d{10}([^\d]+|$)/"(不包括引號)用來匹配手機(jī)號碼。正則表達(dá)式的內(nèi)容過多愿险,大家有興趣可以搜索學(xué)習(xí)一下颇蜡。
3技術(shù)概覽
以上講述的价说,主要是文字類內(nèi)容的審核和規(guī)則,邏輯簡單风秤,但應(yīng)用最為廣泛鳖目。近年隨著短視頻類產(chǎn)品的興起,內(nèi)容審核的邏輯需要更加深層的技術(shù)支持缤弦。
技術(shù)上的東西领迈,對大多人來說如同天書,而且也沒有必要深入了解碍沐。我們挑選幾個(gè)容易理解的點(diǎn)狸捅,來窺探幾分內(nèi)容審核背后的技術(shù)。
來源:某相關(guān)產(chǎn)品宣傳網(wǎng)頁
OCR(文本識別技術(shù))累提,主要用來識別圖片中存在的文字尘喝。許多違規(guī)內(nèi)容,包括聯(lián)系方式斋陪、色情信息朽褪、廣告信息等為了規(guī)避審核,都會以圖片的方式呈現(xiàn)无虚。
人臉識別技術(shù)缔赠,通常用來識別政治、宗教類人物友题,識別到后可以直接刪除或者進(jìn)行風(fēng)險(xiǎn)標(biāo)記橡淑。
語音識別技術(shù),語音識別的應(yīng)用場景比較多咆爽,但在內(nèi)容審核領(lǐng)域仍然不是剛需梁棠,所以使用的較少。但也有些直播或音頻平臺比較重視音頻對比斗埂、聲紋識別技術(shù)符糊,可以輕易識別到一些固定模式的違法違規(guī)聲音。
視頻識別≈圖片識別呛凶,視頻是畫面與音頻組成的以幀為單位的畫面男娄,通常采取截幀上傳與服務(wù)器數(shù)據(jù)對比來識別。審核模式和圖片審核相同漾稀,比如通過畫面皮膚裸露狀態(tài)來判斷是否過于性感模闲、是否是色情內(nèi)容。
上下文語義識別技術(shù)崭捍,這種技術(shù)用來判斷一句話是否能跟上下文結(jié)合尸折,是否是一段垃圾文本。比如說殷蛇,在評論區(qū)隨便輸入一串奇怪的文本实夹,如果系統(tǒng)認(rèn)為和上下文不相關(guān)橄浓,就有理由將內(nèi)容放入審核區(qū)。
技術(shù)是很酷亮航,用好了可以大量減少我們的工作荸实,但內(nèi)容審核技術(shù)的實(shí)施是一件很難一勞永逸的事情,其中的尺度和參數(shù)都需要人來不斷維護(hù)缴淋,而且人工審核仍然是非常有必要的准给,并且需要的人工可能越來越多。內(nèi)容審核技術(shù)的應(yīng)用重抖,仍然任重道遠(yuǎn)圆存。
4常見問題
1.替代關(guān)鍵詞不能太簡單
我曾經(jīng)在一款A(yù)PP上看管理類文章,整篇文章多處說到給員工定績效要遵循“ART原則”仇哆,我遲疑了好幾秒才明白沦辙,原來是"SMART原則**"。
SM這個(gè)詞只有兩個(gè)字母讹剔,無論是作為禁止油讯、審核還是替換關(guān)鍵詞都不合適,都容易攔截或替換大量不應(yīng)該處理的內(nèi)容延欠,一般的方法很難處理陌兑。
這時(shí)候,我們可以總結(jié)一下模式由捎,如果sm這兩個(gè)字母前面是英文字母兔综,或者后面是英文字母,一般來說就是另一個(gè)英文單詞狞玛,就不會有問題软驰。我們就可以用正則表達(dá)式把這一規(guī)則寫出來,再設(shè)置審核或替換就會好很多心肪。
2.審核時(shí)間與用戶體驗(yàn)的權(quán)衡
去知乎和微博搜一下“審核”锭亏,被抱怨最多的問題就是審核時(shí)間長。用戶提交內(nèi)容到內(nèi)容審核通過硬鞍,這期間心情會劇烈波動慧瘤,如果用戶等了一兩天時(shí)間,最后內(nèi)容被莫名其妙地拒絕固该,而且不給任何明確的拒絕理由锅减,用戶的心情就會由期待變?yōu)榻箲],進(jìn)而變成憤怒伐坏,這就是B站被up主抱怨最多的地方怔匣。
我們可以從以下角度優(yōu)化用戶體驗(yàn):
用戶提交內(nèi)容后,正常呈現(xiàn)已發(fā)布的內(nèi)容狀態(tài)著淆,可以反復(fù)編輯劫狠,只是給出狀態(tài)提示拴疤,提示內(nèi)容正在審核永部,如果有必要可以提示一般多久可以審核完独泞。
用戶提交內(nèi)容后,如果進(jìn)入審核苔埋,但覺得問題不大懦砂,或者用戶歷史記錄良好,可以自動進(jìn)入“限流”狀態(tài)组橄,即只允許自己和粉絲/好友觀看荞膘。待審核通過后,開放給所有人玉工。這期間不需要給用戶任何提示羽资。
用戶內(nèi)容被拒后,原因是可以找到依據(jù)遵班、可以確定的屠升。很多平臺都是讓用戶具體原因參考某某規(guī)范文檔,但這個(gè)文檔里又是一堆大而化之的空話狭郑。許多時(shí)候機(jī)器審核是存在誤刪的可能的腹暖,這時(shí)候如果申訴渠道也不能及時(shí)反饋,就會讓人非澈踩火大脏答。
優(yōu)質(zhì)賬號設(shè)為信任賬戶或優(yōu)先審核。比如官方賬號亩鬼、以前從沒出現(xiàn)問題的老賬號殖告,至少應(yīng)當(dāng)做到優(yōu)先審核,甚至直接放開雳锋,先放后審丛肮。
3.理解內(nèi)容審核的保守傾向
越是體量很大的平臺,內(nèi)容審核越是有保守傾向魄缚,這不只是因?yàn)楸P子大了更加在意風(fēng)險(xiǎn)管理宝与,還有一些現(xiàn)實(shí)的原因。內(nèi)容數(shù)量太多冶匹,平臺就不得不采用規(guī)則和算法去審核习劫,這些規(guī)則和算法需要最終做出決策,就難免拿著標(biāo)準(zhǔn)一刀切嚼隘,即使這把刀很小也會有誤傷诽里,這種標(biāo)準(zhǔn)對很多內(nèi)容就顯得過于嚴(yán)格。
比如皮膚裸露面積達(dá)到多少會有問題飞蛹、裸露哪些位置會有問題谤狡,無論標(biāo)準(zhǔn)多么的細(xì)化灸眼,都會存在誤判,被誤判的內(nèi)容比例可能很小墓懂,但絕對數(shù)量很大焰宣。據(jù)說很多圖片和視頻中如果存在加菲貓,都會被過濾掉捕仔,因?yàn)樗S色面積太大而且和人的皮膚很像匕积。
在被審核的用戶看來這些標(biāo)準(zhǔn)有點(diǎn)保守,有點(diǎn)不近人情榜跌,甚至可笑闪唆。平臺的管理人員也知道問題,但他們很難做到很細(xì)致钓葫,為了快速把違規(guī)的內(nèi)容剔除悄蕾,只能犧牲掉一部分人的用戶體驗(yàn),畢竟違規(guī)內(nèi)容一旦出現(xiàn)础浮,對平臺來說就是大問題帆调。所以說,內(nèi)容審核技術(shù)的應(yīng)用還非常任重道遠(yuǎn)霸旗。
以上的內(nèi)容贷帮,對于一個(gè)運(yùn)營或產(chǎn)品工作者來說,已經(jīng)足夠了诱告。但如果你真的需要對一款產(chǎn)品的內(nèi)容審核規(guī)范負(fù)責(zé)撵枢,就需要去學(xué)習(xí)更多知識,需要有更加專業(yè)的精神和更謹(jǐn)慎的態(tài)度精居,未來還會有無數(shù)難以預(yù)料的坎坷等著你锄禽。