反垃圾處理（敏感詞入愧、內(nèi)容審核）

你好，我是不二翔叔嗤谚。

一棺蛛、無孔不入的垃圾信息

現(xiàn)實(shí)生活中，走在大街呵恢、天橋鞠值，隨處可見的垃圾媚创，讓我們感到厭惡渗钉，不僅是對(duì)環(huán)境的污染，也是對(duì)人身心的打擊钞钙。在互聯(lián)網(wǎng)內(nèi)容型產(chǎn)品中鳄橘，也是同樣的道理，為了維護(hù)平臺(tái)氛圍的和諧芒炼，我們需要時(shí)刻與深惡痛絕的垃圾信息作斗爭(zhēng)瘫怜。

以UGC為核心的社區(qū)產(chǎn)品中，如果產(chǎn)生大量的垃圾信息本刽，對(duì)產(chǎn)品來講是致命的鲸湃，會(huì)帶來一系列的惡劣影響。

首先看對(duì)垃圾信息的定義子寓，一般是指涉及黃暴暗挑、政治等很明顯違規(guī)內(nèi)容，那些擦邊球的內(nèi)容也可以歸為其中（因?yàn)閷?duì)平臺(tái)沒有價(jià)值）斜友。

一方面炸裆，這些垃圾信息若不及時(shí)清理，很有可能被網(wǎng)警警告甚至封網(wǎng)鲜屏，最終走向死亡烹看，變成第二個(gè)內(nèi)涵段子；

另一方面洛史，這些信息如果呈現(xiàn)到用戶面前惯殊，會(huì)極大導(dǎo)致用戶失去對(duì)產(chǎn)品的信任而流失；

其次也殖，當(dāng)產(chǎn)品遭遇惡意攻擊時(shí)土思，垃圾信息通常會(huì)數(shù)量巨大，對(duì)服務(wù)器來說也是一種負(fù)擔(dān)，性能降低浪漠，影響正常服務(wù)陕习。

那么，面對(duì)這些垃圾信息址愿，我們?cè)撛趺崔k？或以什么態(tài)度對(duì)待响谓？

在長(zhǎng)期的反垃圾信息工作中损合，最核心的解決思路主要有兩點(diǎn)：

①提高垃圾信息的發(fā)布成本，從源頭杜絕娘纷。

因?yàn)閷?duì)這些垃圾發(fā)布者而言嫁审，他們也是有利益訴求的，當(dāng)成本大于收益時(shí)赖晶，他們才會(huì)放棄律适。

②對(duì)漏網(wǎng)之魚采取針對(duì)性審核措施

下面一一闡述。

二遏插、提高垃圾信息發(fā)布成本捂贿，從源頭杜絕

首先看如何才能提高成本。

①預(yù)防機(jī)制

a.在用戶ID注冊(cè)時(shí)胳嘲，限制注冊(cè)賬號(hào)的數(shù)量和頻率

網(wǎng)站：監(jiān)測(cè)是否為同一IP厂僧，限制只能注冊(cè)xxx個(gè)賬號(hào)

App：唯一賬號(hào)（要求綁定手機(jī)號(hào)）、實(shí)名認(rèn)證等手段

下面看一段與垃圾信息斗爭(zhēng)的長(zhǎng)期博弈過程：

“在剛出現(xiàn)垃圾信息時(shí)了牛，發(fā)現(xiàn)發(fā)布者都是新注冊(cè)的賬號(hào)颜屠，我們做了緊急干預(yù)，對(duì)于新注冊(cè)3天內(nèi)的用戶內(nèi)容進(jìn)行嚴(yán)格的檢測(cè)鹰祸，比如不允許發(fā)布鏈接甫窟，出現(xiàn)鏈接的內(nèi)容先審后發(fā)。我們的機(jī)制變化后福荸，對(duì)方也立即調(diào)整了策略蕴坪，新號(hào)注冊(cè)后在3天后才使用。我們調(diào)整為不論何時(shí)注冊(cè)敬锐，只要是第一次發(fā)布內(nèi)容背传，都進(jìn)行檢測(cè)，對(duì)方就調(diào)整為第一篇內(nèi)容完全符合網(wǎng)站規(guī)范台夺，第二篇之后發(fā)布大量的垃圾径玖。審核會(huì)刪除垃圾信息并封號(hào)，對(duì)方就需要有大量的賬號(hào)颤介，在注冊(cè)賬號(hào)時(shí)就提高門檻梳星，比如1小時(shí)只允許同一IP注冊(cè)5個(gè)賬號(hào)赞赖，從通行證上就提高對(duì)方的發(fā)布成本，如此反復(fù)冤灾∏坝颍”

在這里，大家肯定會(huì)有疑問韵吨，既然會(huì)被審核人員立即刪掉匿垄，為什么還會(huì)不停的發(fā)信息呢？那肯定是有利可圖呀归粉，如果是網(wǎng)站的話椿疗，它收錄在百度的權(quán)重比較高，可以說是發(fā)布不用半分鐘就被收錄了糠悼，而網(wǎng)站刪除后届榄，百度搜索還留有快照，因而在百度還會(huì)有一定的曝光倔喂。那如果是針對(duì)App铝条，相對(duì)來說，除了平臺(tái)流量巨大適合推廣之外滴劲，沒有太大的動(dòng)力攻晒。

所謂“道高一尺魔高一丈”，上面有什么政策班挖，下面必然會(huì)出現(xiàn)鉆漏洞的行為，所以芯砸，斗爭(zhēng)是一個(gè)長(zhǎng)期的過程萧芙，不可松懈。

b.驗(yàn)證碼

驗(yàn)證碼的目的是將背后操作的用戶和機(jī)器區(qū)分出來假丧。

在最初應(yīng)對(duì)垃圾信息時(shí)双揪，一般是在網(wǎng)站上，驗(yàn)證碼用過數(shù)字包帚、圖片渔期，還有計(jì)算題，結(jié)果就是越來越復(fù)雜渴邦，非但沒有有效降低垃圾信息疯趟，卻遭到正常用戶投訴。從被全民吐槽的12306驗(yàn)證碼可窺見一二谋梭，我認(rèn)為對(duì)于專業(yè)從事垃圾信息發(fā)布者是沒有明顯效果的信峻。如果收益巨大，在驗(yàn)證碼這個(gè)環(huán)節(jié)甚至可以人工識(shí)別瓮床。君不見12306眼下還是沒有躲過黃牛~但作為一個(gè)提高成本的手段盹舞，可以設(shè)置驗(yàn)證碼产镐，但一定考慮到正常用戶的操作，切忌驗(yàn)證碼太變態(tài)踢步。

關(guān)于驗(yàn)證碼的具體形式和變種癣亚，這里不在贅述，感興趣的可以去搜索获印。

c.發(fā)布機(jī)制改良逃糟，是先審后發(fā)，還是先發(fā)后審

對(duì)于非信任用戶（新用戶）和信任用戶分別對(duì)待蓬豁。

非信任用戶一般不是平臺(tái)核心用戶绰咽，如果要做嚴(yán)謹(jǐn)處理，他們發(fā)布的內(nèi)容是需要先經(jīng)過審核才能放出來的地粪，比如：什么值得買的文章評(píng)論需要經(jīng)過審核取募。

何為信任用戶？一個(gè)產(chǎn)品80%的內(nèi)容主要有20%的核心用戶創(chuàng)造蟆技，這里就需要考慮幾個(gè)問題：

1.如果一視同仁玩敏，這些用戶的體驗(yàn)必然遭到打擊，如何保證著少數(shù)價(jià)值用戶的體驗(yàn)?zāi)兀?/p>

2.如果每個(gè)人都審核的話质礼，對(duì)平臺(tái)的運(yùn)營(yíng)壓力太大旺聚，人力成本也很高

3.平臺(tái)的氛圍需要及時(shí)得到保證，所以好的內(nèi)容不應(yīng)該受到阻塞

所以眶蕉，我們可以設(shè)立白名單機(jī)制砰粹。把一部分核心用戶加入白名單，也就是可信任的用戶造挽，不受任何限制碱璃，保護(hù)了核心用戶的體驗(yàn)，同時(shí)也減輕了審核的負(fù)擔(dān)饭入，在審核時(shí)可以最后審核這些用戶的內(nèi)容嵌器，從而保證更快的把垃圾信息優(yōu)先處理。

那么問題來了谐丢，保證一小部分人的體驗(yàn)爽航，這就足夠了嗎？對(duì)于上千萬的用戶來說乾忱，太不夠了讥珍。所以白名單又需要定期維護(hù)，把具有某些特征的用戶加入到白名單饭耳，特征可以是注冊(cè)了一定時(shí)間的串述，所有發(fā)布的內(nèi)容是正常的，具有一定等級(jí)的用戶等等寞肖，結(jié)合自己的產(chǎn)品可以自定義一些符合正常用戶的規(guī)則纲酗，區(qū)別對(duì)待衰腌。

d.發(fā)布過程處理

在用戶發(fā)布內(nèi)容時(shí)，檢測(cè)是否含有敏感詞觅赊，如果有禁止提交右蕊。但這里的敏感詞，因?yàn)槭菣C(jī)器處理吮螺，可能會(huì)出現(xiàn)誤判饶囚，所以需要有申訴的入口及人工處理。

三鸠补、對(duì)漏網(wǎng)之魚采取針對(duì)性審核措施

即時(shí)從源頭杜絕的措施做得再完善萝风，也終究難以完全避免那些鉆漏洞的內(nèi)容，所以我們需要對(duì)漏網(wǎng)之魚采取針對(duì)性的審核措施紫岩。

先來看看规惰，我們審核的內(nèi)容一般存在哪些情況：

①涉及黃暴、政治等很明顯違規(guī)內(nèi)容

②擦邊球內(nèi)容

③內(nèi)容性質(zhì)OK泉蝌，但并不符合平臺(tái)調(diào)性/標(biāo)準(zhǔn)

④完全ok

針對(duì)以上四種內(nèi)容歇万，一般需要機(jī)器和人工審核雙重過濾。根據(jù)不同業(yè)務(wù)需求勋陪，信息量及風(fēng)險(xiǎn)權(quán)衡贪磺，人機(jī)審核比例會(huì)有所不同。下面根據(jù)不同平臺(tái)的內(nèi)容形式進(jìn)行區(qū)別分析：

1.?文字內(nèi)容方面

①使用敏感詞過濾系統(tǒng)诅愚。

信息審核工作都是在信息審核平臺(tái)上進(jìn)行的寒锚，網(wǎng)站/產(chǎn)品的運(yùn)營(yíng)審核系統(tǒng)中會(huì)預(yù)先設(shè)定一批關(guān)鍵詞庫并對(duì)詞組進(jìn)行排列組合，這批詞庫又會(huì)根據(jù)敏感性進(jìn)行分類呻粹。系統(tǒng)會(huì)阻止用戶發(fā)布敏感詞匯壕曼，或?qū)⒂脩舭l(fā)出來的含有敏感詞的內(nèi)容直接刪除。對(duì)于某些敏感性較低的詞匯等浊，發(fā)出來不會(huì)立即刪除，需要經(jīng)過審核人員過目進(jìn)行二次審核摹蘑。

也可以利用一些第三方平臺(tái)進(jìn)行更全面的過濾筹燕，比如：網(wǎng)易云易盾

2）建立反垃圾信息（anti-spam）機(jī)制。

我們經(jīng)常會(huì)遇到一些垃圾信息衅鹿，比如郵箱中收到的各種垃圾郵件撒踪、新浪微博的僵尸粉以及論壇中層出不窮的廣告貼等等。有人會(huì)不停的去尋找網(wǎng)站的漏洞以及規(guī)則大渤，使用機(jī)器發(fā)布這些垃圾廣告從而達(dá)到營(yíng)利目的制妄。anti-spam主要是指通過技術(shù)手段對(duì)數(shù)據(jù)進(jìn)行過濾和篩選，將我們認(rèn)定為不合格的數(shù)據(jù)清理掉泵三，將系統(tǒng)認(rèn)為可疑的信息進(jìn)行提示分類耕捞。anti-spam對(duì)審核工作也是一個(gè)相輔相成的內(nèi)容衔掸。

2、?圖片內(nèi)容方面

對(duì)于圖片內(nèi)容的審核俺抽，傳統(tǒng)的審核方式主要依賴于人工敞映。圖片不同于文字，無法提取關(guān)鍵詞磷斧，對(duì)于大多數(shù)互聯(lián)網(wǎng)公司在技術(shù)上無法達(dá)到振愿，否則也就不會(huì)出現(xiàn)鑒黃師這樣的職業(yè)了。

另一種方式是引導(dǎo)用戶使用舉報(bào)功能弛饭，充分調(diào)動(dòng)廣大人民群眾的力量冕末。目前很多帶有社交屬性的網(wǎng)站和App，都會(huì)為用戶開通舉報(bào)功能侣颂。用戶在瀏覽內(nèi)容中發(fā)現(xiàn)色情視頻档桃、圖片等不良信息，可以通過點(diǎn)擊相應(yīng)按鈕或者鏈接的形式横蜒，向管理員舉報(bào)胳蛮，并由管理員完成刪圖或者封號(hào)等后續(xù)處理。

另一種比較節(jié)省官方成本的方式為用戶授權(quán)丛晌，有一些以話題為主的產(chǎn)品仅炊，比如最右，會(huì)專門為話題招募合適的“話事者”澎蛛，“話事者”角色存在的價(jià)值在于：引導(dǎo)該話題下用戶發(fā)布的內(nèi)容調(diào)性抚垄，同時(shí)進(jìn)行內(nèi)容的基礎(chǔ)審核；再比如貼吧的大小吧主谋逻、興趣部落的酋長(zhǎng)呆馁，都會(huì)積極維護(hù)自己所在社區(qū)的氛圍和內(nèi)容調(diào)性，這其實(shí)是一種轉(zhuǎn)移官方成本的運(yùn)營(yíng)方式毁兆，對(duì)用戶來說浙滤，也能有強(qiáng)烈的參與感和自豪感，所以值得一試气堕。

3纺腊、視頻內(nèi)容方面

視頻網(wǎng)站的內(nèi)容審核工作主要有兩個(gè)目的，一是合規(guī)茎芭，二是版權(quán)揖膜。其中合規(guī)問題涉及面更廣，包括色情梅桩、暴恐壹粟、涉政等。當(dāng)然內(nèi)容還要符合商業(yè)價(jià)值的需求宿百，比如廣告趁仙、謾罵等就很影響用戶體驗(yàn)洪添，影響商業(yè)變現(xiàn)。視頻網(wǎng)站通常都通過技術(shù)手段與人工審核相結(jié)合來完成審核工作幸撕，不管是先行過濾還是標(biāo)注某些內(nèi)容讓審核人員重點(diǎn)關(guān)注薇组，審核系統(tǒng)都不可或缺。非直播內(nèi)容坐儿，都是先審后發(fā)律胀。另外，舉報(bào)通道和快速處理也是必備的貌矿。國(guó)內(nèi)視頻審核現(xiàn)狀參考：從B站炭菌、愛奇藝、映客的IPO上市逛漫，看國(guó)內(nèi)視頻公司的內(nèi)容審核現(xiàn)狀

視頻審核是一個(gè)難點(diǎn)黑低，但視頻網(wǎng)站要審核的不只是視頻，還包括用戶頭像酌毡、昵稱克握、簽名、標(biāo)題枷踏、標(biāo)簽菩暗、評(píng)論、彈幕旭蠕、站內(nèi)信等各種用戶可以自行輸入的圖像/文本內(nèi)容停团。這項(xiàng)工作如此復(fù)雜，審核系統(tǒng)需要全能掏熬、有策略佑稠、有進(jìn)步，才能保證審核效率及準(zhǔn)確性旗芬。

全能就是要通過各種算法搞定文本舌胶、圖像、音頻疮丛、視頻等不同內(nèi)容介質(zhì)辆琅，以及色情、暴力等不同違規(guī)類型这刷。這一點(diǎn)，人工智能的進(jìn)展提供了有力的武器娩井。參考：人工智能是如何識(shí)別一張黃圖的暇屋？

策略不僅是通過正則表達(dá)式、智能算法對(duì)付內(nèi)容本身洞辣，還要通過IP咐刨、終端昙衅、郵箱、手機(jī)號(hào)等信息識(shí)別用戶的危險(xiǎn)程度定鸟，進(jìn)而做出不同處理而涉，比如限制發(fā)布時(shí)間間隔。注意人工智能可以依靠联予，不能依賴啼县。

進(jìn)步是因?yàn)楹诨耶a(chǎn)總會(huì)設(shè)法試探并突破現(xiàn)有系統(tǒng)的防御，比如曾有一些小語種沸久、偽低幼的攻擊繞過 YouTube 審核的案例季眷，運(yùn)營(yíng)人員和算法工程師需要合作不斷去完善系統(tǒng)敏感詞庫、邏輯及算法卷胯。

總之子刮，成熟的審核系統(tǒng)，成熟的審核團(tuán)隊(duì)窑睁，應(yīng)用場(chǎng)景的覆蓋挺峡，都是身經(jīng)百戰(zhàn)練成的。下面看看具體的一些措施：

任何文件都有且只有一個(gè)獨(dú)一無二的MD5信息值担钮，MD5可以說是文件的“數(shù)字指紋”橱赠。對(duì)于含有視頻內(nèi)容的網(wǎng)盤或視頻網(wǎng)站，采取的方式是建立涉黃文件的MD5數(shù)據(jù)庫裳朋，用戶上傳后自動(dòng)分析MD5是否合法病线，則能避免涉黃文件的重復(fù)分享。審核人員再對(duì)通過自動(dòng)檢測(cè)的每條視頻進(jìn)行審查鲤嫡。

網(wǎng)監(jiān)有一個(gè)巨大的危險(xiǎn)MD5庫送挑，庫內(nèi)藏著各種不能流于世的視頻。視頻網(wǎng)站都需要接入這個(gè)庫暖眼，并在實(shí)際審核中增加自己的庫存惕耕。

通過MD5之后的視頻，第二步會(huì)經(jīng)歷機(jī)器審核的過濾诫肠。機(jī)器審核視頻同樣是基于深度學(xué)習(xí)圖像識(shí)別云司澎，實(shí)際也是將視頻截圖，由機(jī)器審核每一張截圖的安全性栋豫。不過具體是3秒截一張還是5秒截一張挤安，松緊度由視頻網(wǎng)站自己控制。

對(duì)于不能通過的視頻丧鸯，機(jī)器審核視頻會(huì)給出兩類結(jié)果：

確定不能通過的蛤铜，這類的準(zhǔn)確率幾乎能達(dá)到99.5%以上；

僅作參考的，準(zhǔn)確率在95%到97%围肥，這可能意味著該視頻需要再次進(jìn)行人工審核剿干。

從整個(gè)行業(yè)來說，機(jī)器基本能篩過99%的視頻穆刻，只有1%需要再次動(dòng)用人工置尔。如果是150萬的視頻，那人工只需要審核1.5萬個(gè)氢伟。

對(duì)于像優(yōu)酷榜轿、愛奇藝這樣的大型視頻網(wǎng)站采取的是先審后發(fā)，而且更突出的是PGC部分的內(nèi)容腐芍。然而在國(guó)內(nèi)差导，多數(shù)UGC都是“先發(fā)后審”的，尤其在直播/短視頻領(lǐng)域猪勇，強(qiáng)調(diào)草根主播设褐，強(qiáng)調(diào)時(shí)效性。

由于每天新產(chǎn)生的內(nèi)容量太大泣刹，為了減輕審核工作助析，他們也有很多竅門，比如短視頻領(lǐng)域中椅您，會(huì)對(duì)新用戶和高危用戶的上傳會(huì)優(yōu)先審核外冀，是“重點(diǎn)關(guān)注對(duì)象”；

明星掀泳、大V等賬號(hào)會(huì)被設(shè)置成為信任賬戶雪隧，默認(rèn)他們發(fā)布的視頻不用通過審核。

在系統(tǒng)方面员舵，則會(huì)建立反垃圾屏蔽系統(tǒng)脑沿，記錄用戶行為、關(guān)鍵詞马僻、頭像MD5識(shí)別等進(jìn)行用戶和垃圾攔截庄拇；

對(duì)于直播領(lǐng)域，則會(huì)要求在畫面播出前完成機(jī)器審核（直播一般會(huì)有5-60s不等的延遲）韭邓，避免“造人事件”再次發(fā)生措近。

4、音頻內(nèi)容方面

有一些是語音為主的直播節(jié)目女淑，比如談話聊天瞭郑、脫口秀、在線廣播等鸭你。視頻檢測(cè)所使用到的圖像技術(shù)就很難在這些應(yīng)用場(chǎng)景發(fā)揮作用凰浮，所以音頻檢測(cè)需要有針對(duì)性的審核我抠。

①關(guān)于如何杜絕廣告、黃賭毒等

這時(shí)候就體現(xiàn)語音審核的困難了袜茧。個(gè)人覺得，靜態(tài)的內(nèi)容瓣窄，比如文字笛厦、圖片是最容易審核了，熟練了以后真的可以一目十行俺夕。

現(xiàn)在每天看首頁文章裳凸，跟糾察隊(duì)一樣，一眼發(fā)現(xiàn)廣告劝贸。

視頻也稍微好點(diǎn)姨谷，因?yàn)橛挟嬅婧妥帜福鶕?jù)情節(jié)的走向映九，可以大致推斷劇情發(fā)展梦湘，掌握套路以后，可以大段大段的跳過件甥。

音頻捌议，因?yàn)橹豢柯曇舴直妫豢梢砸稽c(diǎn)一點(diǎn)前進(jìn)引有，所以消耗的時(shí)間比較長(zhǎng)瓣颅。這就是為什么，作者會(huì)說最難的審核方式就是音頻吧譬正。

②審核音頻的不同點(diǎn)在哪里宫补？

分為兩個(gè)方面，審核音質(zhì)和內(nèi)容曾我。審核音質(zhì)粉怕，音調(diào)是否一致比較平穩(wěn)崇决，不會(huì)突然特別高亢檐盟，給聽者造成不適感，只要發(fā)現(xiàn)在開頭轴合、中間和結(jié)尾保持一致虐秦，就比較好判斷平酿。音色是不是比較好聽，如果太難聽的聲音悦陋，再見噢~

審核內(nèi)容蜈彼，就跟我們審核文章差不多。從標(biāo)題和開頭概括俺驶，可以知道整體的方向和選題幸逆，做基礎(chǔ)判斷棍辕。

③音頻審核技術(shù)

音頻可以分為有內(nèi)容和無內(nèi)容兩種：說話內(nèi)容相關(guān)的包括說了什么？（涉政还绘、涉黃楚昭、涉賭還是廣告信息），另外還可以從說話內(nèi)容來判斷語種以及說話人的辨識(shí)拍顷；此外還有與說話內(nèi)容無關(guān)的信息抚太，例如特定錄音片段、歌曲旋律昔案、環(huán)境音等等尿贫。

針對(duì)不同的數(shù)據(jù)類型有不同的檢測(cè)技術(shù)。針對(duì)說話內(nèi)容有語音識(shí)別踏揣、關(guān)鍵詞檢索等庆亡；針對(duì)語種的判別有語種識(shí)別的技術(shù)；針對(duì)說話人的識(shí)別有聲紋識(shí)別技術(shù)捞稿；針對(duì)說話內(nèi)容無關(guān)的通常采用音頻比對(duì)的技術(shù)來進(jìn)行檢測(cè)又谋。

語音識(shí)別的關(guān)鍵技術(shù)——聲學(xué)模型

語音識(shí)別的聲學(xué)模型主要有以下兩種：混合聲學(xué)模型和端到端的聲學(xué)模型。

混合聲學(xué)模型通常是隱馬爾科夫模型結(jié)合混合高斯括享、深度神經(jīng)網(wǎng)絡(luò)搂根、深度循環(huán)神經(jīng)網(wǎng)絡(luò)以及深度卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)模型。

端到端聲學(xué)模型目前有兩大類铃辖，一是連接時(shí)序分類—長(zhǎng)短時(shí)記憶模型剩愧，二是注意力模型。

聲學(xué)模型：

聲學(xué)模型——混合高斯—隱馬爾科夫模型

聲學(xué)模型——深度神經(jīng)網(wǎng)絡(luò)—隱馬爾科夫模型

聲學(xué)模型——深度循環(huán)神經(jīng)網(wǎng)絡(luò)—隱馬爾科夫模型

聲學(xué)模型——長(zhǎng)短時(shí)記憶模型

聲學(xué)模型——深度卷積神經(jīng)網(wǎng)絡(luò)—隱馬爾科夫模型

聲學(xué)模型——連接時(shí)序分類—長(zhǎng)短時(shí)記憶模型

聲學(xué)模型——注意力模型

語言模型：

語言模型——N-Gram

語言模型——DNN-Gram

語言模型——RNN-Gram

以上娇斩，涉及到音頻識(shí)別技術(shù)都比較專業(yè)仁卷，此處只是網(wǎng)上摘抄部分概念，我也不是很懂犬第，具體的需要查找相關(guān)資料作深入研究锦积。

擴(kuò)展1：人工智能審核方式

當(dāng)然還有種最新的使用人工智能技術(shù)的審核方式，目前市面上已經(jīng)有成熟的第三方公司提供API接口歉嗓，如云凈網(wǎng)提出的內(nèi)容安全管控體系丰介，通過信源、信道鉴分、信宿三方面分析哮幢，對(duì)信息內(nèi)容進(jìn)行分類管控，即UGC管控志珍、即時(shí)消息管控橙垢、視頻圖片管控；從違規(guī)文本識(shí)別引擎伦糯、違規(guī)圖片識(shí)別引擎柜某、異常行為分析引擎嗽元、風(fēng)險(xiǎn)決策引擎四項(xiàng)技術(shù)，對(duì)平臺(tái)數(shù)據(jù)進(jìn)行整體分析喂击。利用安全大數(shù)據(jù)用戶行為分析及語義分析剂癌，對(duì)內(nèi)容載體進(jìn)行控制。

擴(kuò)展2：行為預(yù)測(cè)模式構(gòu)建

經(jīng)常生產(chǎn)垃圾信息的用戶一般都有某些共性惭等，這些共性一般有兩類：

狀態(tài)：比如昵稱普遍符合某些規(guī)則珍手、簡(jiǎn)介/簽名里面帶有營(yíng)銷推廣詞匯、頭像是二維碼等等

行為：喜歡在特定時(shí)間點(diǎn)發(fā)布內(nèi)容辞做、批量操作、停留時(shí)長(zhǎng)很特殊等等

有條件的情況寡具，需要針對(duì)這些數(shù)據(jù)進(jìn)行建模處理秤茅，構(gòu)建垃圾用戶的畫像，并引入機(jī)器學(xué)習(xí)算法童叠，方便后期進(jìn)行智能監(jiān)測(cè)框喳。

總結(jié)：

①反垃圾處理是一個(gè)長(zhǎng)期斗爭(zhēng)的過程，需要不斷利用先進(jìn)的技術(shù)結(jié)合巧妙的手段來跟進(jìn)厦坛，最終目的都是為了降低人力成本五垮，保護(hù)平臺(tái)生態(tài)和諧；

②反垃圾處理的過程中杜秸，需要針對(duì)特殊情況及時(shí)調(diào)整策略放仗，時(shí)刻注意，不斷優(yōu)化審核機(jī)制撬碟，修補(bǔ)漏洞诞挨；

③對(duì)于那些不合規(guī)的用戶，要及時(shí)進(jìn)行針對(duì)性處理呢蛤，給平臺(tái)其他用戶一個(gè)及時(shí)反饋惶傻。

我是不二翔叔，歡迎關(guān)注我~

最后編輯于：2019.06.22 18:54:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末其障，一起剝皮案震驚了整個(gè)濱河市银室，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌励翼，老刑警劉巖蜈敢，帶你破解...
沈念sama閱讀 206,311評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異抚笔，居然都是意外死亡扶认，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,339評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門殊橙，熙熙樓的掌柜王于貴愁眉苦臉地迎上來辐宾，“玉大人狱从，你說我怎么就攤上這事〉疲” “怎么了季研？”我有些...
開封第一講書人閱讀 152,671評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)誉察。經(jīng)常有香客問我与涡，道長(zhǎng)，這世上最難降的妖魔是什么持偏？我笑而不...
開封第一講書人閱讀 55,252評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任驼卖，我火速辦了婚禮，結(jié)果婚禮上鸿秆，老公的妹妹穿的比我還像新娘酌畜。我一直安慰自己，他們只是感情好卿叽，可當(dāng)我...
茶點(diǎn)故事閱讀 64,253評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布桥胞。她就那樣靜靜地躺著，像睡著了一般考婴。火紅的嫁衣襯著肌膚如雪贩虾。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,031評(píng)論 1贊 285
城市分裂傳說
那天沥阱，我揣著相機(jī)與錄音缎罢，去河邊找鬼。笑死喳钟，一個(gè)胖子當(dāng)著我的面吹牛屁使，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播奔则，決...
沈念sama閱讀 38,340評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼蛮寂，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了易茬？” 一聲冷哼從身側(cè)響起酬蹋，我...
開封第一講書人閱讀 36,973評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎抽莱，沒想到半個(gè)月后范抓，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,466評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡食铐，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,937評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年匕垫，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片虐呻。...
茶點(diǎn)故事閱讀 38,039評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡象泵，死狀恐怖寞秃，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情偶惠，我是刑警寧澤春寿，帶...
沈念sama閱讀 33,701評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站忽孽，受9級(jí)特大地震影響绑改，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜兄一，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,254評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一厘线、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧出革，春花似錦皆的、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,259評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽硝全。三九已至栖雾，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間伟众，已是汗流浹背析藕。一陣腳步聲響...
開封第一講書人閱讀 31,485評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留凳厢，地道東北人账胧。一個(gè)月前我還...
沈念sama閱讀 45,497評(píng)論 2贊 354
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像先紫，于是被迫代替她去往敵國(guó)和親治泥。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,786評(píng)論 2贊 345

反垃圾處理（敏感詞伴箩、內(nèi)容審核）

反垃圾處理（敏感詞入愧、內(nèi)容審核）

一棺蛛、無孔不入的垃圾信息

二遏插、提高垃圾信息發(fā)布成本捂贿，從源頭杜絕

三鸠补、對(duì)漏網(wǎng)之魚采取針對(duì)性審核措施

推薦閱讀更多精彩內(nèi)容