內(nèi)容安全之反垃圾智能內(nèi)容審核產(chǎn)品的構(gòu)建策略與流程

你一定想不到最不起眼的內(nèi)容安全可能會影響一個行業(yè)或平臺的生存和發(fā)展命斧，近日，2020年6月23日國家網(wǎng)信辦指導(dǎo)屬地網(wǎng)信辦依法約談處置虎牙蛔六、斗魚等10家網(wǎng)絡(luò)直播平臺(其實已經(jīng)不是第一次通告要求整改了）费奸，消息一出直登微博熱搜包雀，成為大家紛紛議論的焦點。

被整改原因孩饼，公告也都一一闡述清楚：

“結(jié)合群眾舉報及核查情況表明髓削，國內(nèi)31家主要網(wǎng)絡(luò)直播平臺普遍存在內(nèi)容生態(tài)不良現(xiàn)象，不同程度地存在內(nèi)容低俗庸俗問題镀娶。其中立膛，秀場類直播亂象頻發(fā)，一些女主播衣著暴露梯码，一些男主播言行粗俗惡俗宝泵，低俗熱舞、惡搞轩娶、謾罵等現(xiàn)象屢禁不絕儿奶；聊天類直播內(nèi)容無營養(yǎng)無價值，甚至傳播不良價值觀鳄抒；留言互動闯捎、彈幕和用戶賬號注冊疏于管理，違法違規(guī)信息層出不窮嘁酿。一些平臺企業(yè)經(jīng)營態(tài)度不端正隙券，自身利益至上男应，有的借助免費“網(wǎng)課”推廣“網(wǎng)游”闹司，有的利用色情低俗內(nèi)容誘導(dǎo)用戶點擊瀏覽并充值打賞，有的利用“抽獎”“競猜”“返利”等方式涉嫌組織網(wǎng)絡(luò)賭博沐飘。諸多直播亂象嚴(yán)重背離社會主義核心價值觀游桩，危害青少年健康成長，敗壞社會風(fēng)氣耐朴，社會各界呼吁要嚴(yán)加整治借卧。”

截圖來源：中國網(wǎng)信網(wǎng)

其中直播行業(yè)兩大巨頭虎牙直播與斗魚直播手機APP平臺banner位置“認(rèn)真整改中”幾字格外引人入目

虎牙直播APP首頁

斗魚直播APP首頁

其實早在幾天，社交軟件微博在618前夕也被要求整改筛峭，并停更微博熱搜和熱門話題榜一周

“6月10日铐刘，國家互聯(lián)網(wǎng)信息辦公室指導(dǎo)北京市互聯(lián)網(wǎng)信息辦公室，約談新浪微博負(fù)責(zé)人影晓，針對微博在蔣某輿論事件中干擾網(wǎng)上傳播秩序镰吵，以及傳播違法違規(guī)信息等問題，責(zé)令其立即整改挂签，暫停更新微博熱搜榜一周疤祭，時間自6月10日15時至6月17日15時，暫停更新熱門話題榜一周饵婆，時間自6月10日15時至6月17日15時勺馆，嚴(yán)肅處理相關(guān)責(zé)任人，同時，要求北京市互聯(lián)網(wǎng)信息辦公室對新浪微博依法從嚴(yán)予以罰款的行政處罰草穆。"

...類似因為內(nèi)容安全問題被要求整改的案例不勝枚舉灌灾，就不一一說明了，同時國家網(wǎng)信辦也針對網(wǎng)絡(luò)內(nèi)容安全問題出臺最新的《辦法》加大對互聯(lián)網(wǎng)信息的審查和傳播安全悲柱。內(nèi)容安全逐漸成為一個平臺穩(wěn)定發(fā)展的前提條件紧卒。

“本辦法自2020年6月1日起實施，國家互聯(lián)網(wǎng)信息辦公室诗祸、國家發(fā)展和改革委員會跑芳、工業(yè)和信息化部、公安部直颅、國家安全部博个、財政部、商務(wù)部功偿、中國人民銀行盆佣、國家市場監(jiān)督管理總局、國家廣播電視總局械荷、國家保密局共耍、國家密碼管理局聯(lián)合制定了《網(wǎng)絡(luò)安全審查辦法》“

本文以人工智能為基礎(chǔ)淺談反垃圾中智能審核產(chǎn)品的構(gòu)建及流程

反垃圾：顧名思義，就是對抗垃圾吨瞎，在互聯(lián)網(wǎng)行業(yè)中更多的是指一個過濾和識別的功能痹兜，對用戶產(chǎn)生的內(nèi)容進(jìn)行過濾，將一些有害無益的信息篩選出去颤诀，典型的例子便是垃圾郵件的識別字旭；社交網(wǎng)站中低俗、色情崖叫、政治反動類等等的內(nèi)容過濾遗淳。

在最初的互聯(lián)網(wǎng)內(nèi)容安全中，負(fù)責(zé)這塊的主要是通過人工審核篩選的方式去對抗垃圾內(nèi)容心傀，但是隨著現(xiàn)在人工智能的快速發(fā)展屈暗，智能審核會逐漸替代人工，通過智能訓(xùn)練機器人來承擔(dān)審核和過濾垃圾內(nèi)容的角色脂男，無論從成本和效率方面考慮這都一定是未來必然的發(fā)展趨勢养叛。本文主要介紹的便是智能審核反垃圾。

以目前的內(nèi)容安全審核業(yè)務(wù)來看疆液，最成熟的還是審核策略（簡單的關(guān)鍵詞匹配一铅、規(guī)則匹配、泛化匹配）+智能審核+人工審核等業(yè)務(wù)配合堕油。目前來看這是一種最科學(xué)效果最好最高效的內(nèi)容審核方式潘飘。

目前審核業(yè)務(wù)普遍的產(chǎn)品邏輯及構(gòu)成（使用場景不同前后順序略有不同）

在這里就不詳細(xì)梳理關(guān)鍵詞肮之、規(guī)則匹配功能，此功能根據(jù)使用場景不用相關(guān)的配置策略也不用卜录，但是大概的功能點基本都一樣戈擒，通過添加關(guān)鍵詞和規(guī)則進(jìn)行相關(guān)的精準(zhǔn)匹配和模糊匹配，優(yōu)缺點大家找找相關(guān)的資料便都能了解一二艰毒。

這里詳細(xì)介紹一下智能審核產(chǎn)品的基本構(gòu)建流程

前文也提到過筐高，目前的智能審核產(chǎn)品主要是以人工智能為基礎(chǔ)并結(jié)合大數(shù)據(jù)來搭建而成，簡單的介紹一下目前人工智能主要的應(yīng)用領(lǐng)域丑瞧，本文介紹的產(chǎn)品主要依托于自然語言處理（NLP)領(lǐng)域的應(yīng)用

人工智能主要應(yīng)用領(lǐng)域（劃分場景不同柑土，領(lǐng)域結(jié)構(gòu)不同）

反垃圾智能審核產(chǎn)品在實現(xiàn)方法上，其核心思想是在載體中提取數(shù)據(jù)后進(jìn)行特征匹配得出分類結(jié)果的過程绊汹。例如文本反垃圾稽屏，圖片反垃圾，視頻反垃圾等等西乖，文本狐榔、圖片、視頻都是載體获雕。以文本為例薄腻，當(dāng)人眼看到文本映射到大腦通過語言處理（語義分析等）后獲取到的信息，就完成了一次數(shù)據(jù)提取與特征匹配届案。同樣的庵楷，反垃圾利用相同的原理提取有害信息的特征后進(jìn)行機器學(xué)習(xí)，進(jìn)而達(dá)到主動識別的效果萝玷。

如何讓機器像人類一樣學(xué)習(xí)到相關(guān)的知識嫁乘？

在這里可以將機器學(xué)習(xí)類比成人類學(xué)習(xí)成長的過程：

孩子的聰明程度=機器使用時的算法好壞昆婿，算法用的好球碉，那孩子相比其他孩子就早早的贏在起跑線了，但是笨孩子就比別人差嗎仓蛆？你可以說他比別人笨但是你肯定不能說他一定比別人差睁冬，因為通過后天的學(xué)習(xí)也能實現(xiàn)”笨鳥先飛“，所以這里的后天學(xué)習(xí)的質(zhì)量和努力程度（訓(xùn)練數(shù)據(jù)集的好壞與數(shù)量）很重要看疙，所以這里就要牽扯一個問題了豆拨，決定一個模型的好壞到底是算法重要還是數(shù)據(jù)重要？

產(chǎn)品搭建及流程

問題分析：

根據(jù)使用場景及應(yīng)用不同所涉及的反垃圾類型也不同能庆，但是目前大多數(shù)平臺所接觸到的垃圾信息基本上可以概括為以下幾個類別：

垃圾廣告：各類商品廣告施禾、詐騙廣告等

色情內(nèi)容：色情詞匯、色情服務(wù)及低俗信息等

暴恐搁胆、政治敏感詞: 暴恐涉政弥搞、違禁品等

辱罵內(nèi)容：各類辱罵性詞匯及文本內(nèi)容

涉政內(nèi)容：內(nèi)容涉及到政治政策類反動言論邮绿，抨擊社會傳播國家謠言及負(fù)面內(nèi)容

竟品信息及其他涉及到自身平臺的負(fù)面信息等、

目前很多市面上的內(nèi)容審核產(chǎn)品都會細(xì)化垂類攀例，例如色情分類為疑似色情和色情或者嚴(yán)重色情等船逮，使用場景不分類策略不同，主要是減少產(chǎn)品對正常用戶的正常內(nèi)容誤殺粤铭。

簡單的垃圾信息挖胃，可以通過設(shè)置規(guī)則進(jìn)行關(guān)鍵詞過濾和屏蔽，正則表達(dá)則可以發(fā)揮很大作用梆惯。但是發(fā)布者為了逃避攔截酱鸭，通常都會對垃圾信息進(jìn)行改造和偽裝，比如拼音替換垛吗，同義詞替換凛辣，象形字替換，嵌入表情字符职烧，用表情代替字符扁誓，甚至是將文字順序打亂。對于復(fù)雜的信息蚀之，其表達(dá)形式廣泛蝗敢、沒有規(guī)律，僅僅通過規(guī)則過濾達(dá)不到效果足删，這時智能審核產(chǎn)品便起到了決定性作用寿谴。

產(chǎn)品模型的基本構(gòu)建及流程：

主要的相關(guān)流程：

模型訓(xùn)練數(shù)據(jù)集

人工智能簡單點就是先人工再智能，所有的人工智能產(chǎn)品都是先依附于人工失受，這里的人工主要就是數(shù)據(jù)處理上讶泰，簡單點的意思就是給機器準(zhǔn)備所需要的學(xué)習(xí)資料，通過這些學(xué)習(xí)資料讓機器學(xué)習(xí)到相關(guān)的知識拂到。

而關(guān)于數(shù)據(jù)其實可分為兩種類型：被標(biāo)記過的數(shù)據(jù)和未被標(biāo)記過的數(shù)據(jù)痪署。什么是標(biāo)記呢？意同“打標(biāo)簽”兄旬，當(dāng)你看到一只貓咪狼犯，你知道它是屬于動物。那么你就可以為它貼上一個動物的標(biāo)簽领铐。再用“有標(biāo)簽的數(shù)據(jù)”去訓(xùn)練模型悯森，讓模型學(xué)習(xí)這些特征，這里就有了“監(jiān)督學(xué)習(xí)”绪撵。

不斷地用標(biāo)注后的數(shù)據(jù)去訓(xùn)練模型瓢姻，讓模型去學(xué)習(xí)，并不斷調(diào)整模型參數(shù)音诈，得到指標(biāo)數(shù)值更高的模型幻碱。使用效果也會更好续膳，所以這里的數(shù)據(jù)質(zhì)量一定要好好把關(guān)，關(guān)系到一個模型的好壞收班，在我目前接觸的模型中效果差的原因大概率就是訓(xùn)練數(shù)據(jù)質(zhì)量太差或者數(shù)量太少坟岔。

模型訓(xùn)練：

將訓(xùn)練數(shù)據(jù)準(zhǔn)備完畢后評估需求，甄選出最優(yōu)最適合的算法相結(jié)合去訓(xùn)練模型摔桦，讓模型學(xué)習(xí)到這些特征社付，一個簡單的模型雛形就這樣誕生了

模型測試：

模型數(shù)據(jù)基本上分為三類

訓(xùn)練集：用來訓(xùn)練模型，作用是用來擬合模型邻耕，通過設(shè)置分類器的參數(shù)鸥咖，訓(xùn)練分類模型。后續(xù)結(jié)合驗證集作用時兄世，會選出同一參數(shù)的不同取值啼辣，擬合出多個分類器。所以說御滩，訓(xùn)練集是用來訓(xùn)練模型或確定模型參數(shù)的

測試集：通過訓(xùn)練集和驗證集得出最優(yōu)模型后鸥拧，使用測試集進(jìn)行模型預(yù)測，用來衡量該最優(yōu)模型的性能和分類能力削解。即可以把測試集當(dāng)做從來不存在的數(shù)據(jù)集富弦，當(dāng)已經(jīng)確定模型參數(shù)后，使用測試集進(jìn)行模型性能評價氛驮。

驗證集：作用是當(dāng)通過訓(xùn)練集訓(xùn)練出多個模型后腕柜，為了能找出效果最佳的模型，使用各個模型對驗證集數(shù)據(jù)進(jìn)行預(yù)測矫废，并記錄模型準(zhǔn)確率盏缤。

選出效果最佳的模型所對應(yīng)的參數(shù)，即用來調(diào)整模型參數(shù)蓖扑，如svn中的參數(shù)c和核函數(shù)等唉铜。在交叉驗證過程中也需要設(shè)置驗證集，如k-折交叉驗證(k-fold crossValidation)赵誓。

一般情況下打毛，訓(xùn)練集、測試集俩功、驗證集三者是無交集的，為了驗證模型的真實效果和泛化能力采用的測試集和驗證集一定是訓(xùn)練集沒有出現(xiàn)過的碰声，就像我們參加中考和高考很少會遇到與之前一模一樣的題一樣诡蜓，這樣模型的測試效果才是最真實的效果

垃圾信息攔截是一個常見的文本二分類任務(wù)，是自然語言處理領(lǐng)域的一個基本任務(wù)胰挑，目的是推斷出給定的文本的標(biāo)簽蔓罚。二分類問題常見的評價指標(biāo)有準(zhǔn)確率（accuracy）椿肩，精準(zhǔn)率（precision），召回率（recall）豺谈，F(xiàn)1-score等郑象。大多數(shù)下用到最多的評測指標(biāo)還是精準(zhǔn)率P和召回率R。其中：

TP：樣本為正茬末，預(yù)測結(jié)果為正厂榛；

FP：樣本為負(fù)，預(yù)測結(jié)果為正丽惭；

TN：樣本為負(fù)击奶，預(yù)測結(jié)果為負(fù)；

FN：樣本為正责掏，預(yù)測結(jié)果為負(fù)柜砾。

準(zhǔn)確率、精準(zhǔn)率和召回率的計算公式如下：

準(zhǔn)確率（accuracy）： (TP + TN )/( TP + FP + TN + FN)

精準(zhǔn)率（precision）：TP / (TP + FP)换衬，正確預(yù)測為正占全部預(yù)測為正的比例

召回率（recall）： TP / (TP + FN)痰驱，正確預(yù)測為正占全部正樣本的比例

F-measure：precision和recall調(diào)和均值的2倍。

觀察上面的公式我們發(fā)現(xiàn)瞳浦，精準(zhǔn)率（precision）和召回率（recall）的分子都是預(yù)測正確的正類個數(shù)（即TP）萄唇，區(qū)別在于分母。精準(zhǔn)率的分母為預(yù)測為正的樣本數(shù)术幔，召回率的分母為原來樣本中所有的正樣本數(shù)另萤。當(dāng)然正常情況下是精準(zhǔn)率和召回率越高模型效果越好，但有時精準(zhǔn)率和召回率兩者會相互制約诅挑，不會同時都很高四敞，這就要求我們做好評估，世上沒有十全十美的東西拔妥，模型產(chǎn)品也一樣忿危，根據(jù)使用場景來評估此類指標(biāo)。

相關(guān)的算法：

目前在自然語言處理領(lǐng)域没龙，基本上占主流的算法便是使用預(yù)訓(xùn)練模型铺厨，通過無監(jiān)督大語料（在億級別的數(shù)據(jù)上預(yù)訓(xùn)練），目的是讓模型學(xué)習(xí)到基本的語言特性，隨后在不同使用場景通過相關(guān)的小語料學(xué)習(xí)（使用社交涝开、財經(jīng)領(lǐng)域或其他等等的模型訓(xùn)練數(shù)據(jù)）并對模型參數(shù)做優(yōu)化微調(diào)球订。達(dá)到最優(yōu)的使用效果。

一個簡單的例子洼裤，人上學(xué)的過程：模型通過大大語料學(xué)習(xí)基礎(chǔ)知識（小學(xué)初中高中），再通過小語料分專業(yè)（大學(xué)）精細(xì)化學(xué)習(xí)（不使用場景語料也不同）學(xué)習(xí)溪王，通過學(xué)習(xí)后成為一個能為社會做貢獻(xiàn)的人

產(chǎn)品的線上使用：

產(chǎn)品上線后并不是就結(jié)束了腮鞍，一定還存在模型沒有識別或誤判的情況值骇，這時候就需要我們根據(jù)線上使用情況去繼續(xù)優(yōu)化和產(chǎn)品迭代直到完全滿足使用需求，最后的目的一定是節(jié)約人力提高工作速率移国。