你好,我是不二翔叔嗤谚。
一棺蛛、無孔不入的垃圾信息
現(xiàn)實(shí)生活中,走在大街呵恢、天橋鞠值,隨處可見的垃圾媚创,讓我們感到厭惡渗钉,不僅是對(duì)環(huán)境的污染,也是對(duì)人身心的打擊钞钙。在互聯(lián)網(wǎng)內(nèi)容型產(chǎn)品中鳄橘,也是同樣的道理,為了維護(hù)平臺(tái)氛圍的和諧芒炼,我們需要時(shí)刻與深惡痛絕的垃圾信息作斗爭(zhēng)瘫怜。
以UGC為核心的社區(qū)產(chǎn)品中,如果產(chǎn)生大量的垃圾信息本刽,對(duì)產(chǎn)品來講是致命的鲸湃,會(huì)帶來一系列的惡劣影響。
首先看對(duì)垃圾信息的定義子寓,一般是指涉及黃暴暗挑、政治等很明顯違規(guī)內(nèi)容,那些擦邊球的內(nèi)容也可以歸為其中(因?yàn)閷?duì)平臺(tái)沒有價(jià)值)斜友。
一方面炸裆,這些垃圾信息若不及時(shí)清理,很有可能被網(wǎng)警警告甚至封網(wǎng)鲜屏,最終走向死亡烹看,變成第二個(gè)內(nèi)涵段子;
另一方面洛史,這些信息如果呈現(xiàn)到用戶面前惯殊,會(huì)極大導(dǎo)致用戶失去對(duì)產(chǎn)品的信任而流失;
其次也殖,當(dāng)產(chǎn)品遭遇惡意攻擊時(shí)土思,垃圾信息通常會(huì)數(shù)量巨大,對(duì)服務(wù)器來說也是一種負(fù)擔(dān),性能降低浪漠,影響正常服務(wù)陕习。
那么,面對(duì)這些垃圾信息址愿,我們?cè)撛趺崔k?或以什么態(tài)度對(duì)待响谓?
在長(zhǎng)期的反垃圾信息工作中损合,最核心的解決思路主要有兩點(diǎn):
①提高垃圾信息的發(fā)布成本,從源頭杜絕娘纷。
因?yàn)閷?duì)這些垃圾發(fā)布者而言嫁审,他們也是有利益訴求的,當(dāng)成本大于收益時(shí)赖晶,他們才會(huì)放棄律适。
②對(duì)漏網(wǎng)之魚采取針對(duì)性審核措施
下面一一闡述。
二遏插、提高垃圾信息發(fā)布成本捂贿,從源頭杜絕
首先看如何才能提高成本。
①預(yù)防機(jī)制
a.在用戶ID注冊(cè)時(shí)胳嘲,限制注冊(cè)賬號(hào)的數(shù)量和頻率
網(wǎng)站:監(jiān)測(cè)是否為同一IP厂僧,限制只能注冊(cè)xxx個(gè)賬號(hào)
App:唯一賬號(hào)(要求綁定手機(jī)號(hào))、實(shí)名認(rèn)證等手段
下面看一段與垃圾信息斗爭(zhēng)的長(zhǎng)期博弈過程:
“在剛出現(xiàn)垃圾信息時(shí)了牛,發(fā)現(xiàn)發(fā)布者都是新注冊(cè)的賬號(hào)颜屠,我們做了緊急干預(yù),對(duì)于新注冊(cè)3天內(nèi)的用戶內(nèi)容進(jìn)行嚴(yán)格的檢測(cè)鹰祸,比如不允許發(fā)布鏈接甫窟,出現(xiàn)鏈接的內(nèi)容先審后發(fā)。我們的機(jī)制變化后福荸,對(duì)方也立即調(diào)整了策略蕴坪,新號(hào)注冊(cè)后在3天后才使用。我們調(diào)整為不論何時(shí)注冊(cè)敬锐,只要是第一次發(fā)布內(nèi)容背传,都進(jìn)行檢測(cè),對(duì)方就調(diào)整為第一篇內(nèi)容完全符合網(wǎng)站規(guī)范台夺,第二篇之后發(fā)布大量的垃圾径玖。審核會(huì)刪除垃圾信息并封號(hào),對(duì)方就需要有大量的賬號(hào)颤介,在注冊(cè)賬號(hào)時(shí)就提高門檻梳星,比如1小時(shí)只允許同一IP注冊(cè)5個(gè)賬號(hào)赞赖,從通行證上就提高對(duì)方的發(fā)布成本,如此反復(fù)冤灾∏坝颍”
在這里,大家肯定會(huì)有疑問韵吨,既然會(huì)被審核人員立即刪掉匿垄,為什么還會(huì)不停的發(fā)信息呢?那肯定是有利可圖呀归粉,如果是網(wǎng)站的話椿疗,它收錄在百度的權(quán)重比較高,可以說是發(fā)布不用半分鐘就被收錄了糠悼,而網(wǎng)站刪除后届榄,百度搜索還留有快照,因而在百度還會(huì)有一定的曝光倔喂。那如果是針對(duì)App铝条,相對(duì)來說,除了平臺(tái)流量巨大適合推廣之外滴劲,沒有太大的動(dòng)力攻晒。
所謂“道高一尺魔高一丈”,上面有什么政策班挖,下面必然會(huì)出現(xiàn)鉆漏洞的行為,所以芯砸,斗爭(zhēng)是一個(gè)長(zhǎng)期的過程萧芙,不可松懈。
b.驗(yàn)證碼
驗(yàn)證碼的目的是將背后操作的用戶和機(jī)器區(qū)分出來假丧。
在最初應(yīng)對(duì)垃圾信息時(shí)双揪,一般是在網(wǎng)站上,驗(yàn)證碼用過數(shù)字包帚、圖片渔期,還有計(jì)算題,結(jié)果就是越來越復(fù)雜渴邦,非但沒有有效降低垃圾信息疯趟,卻遭到正常用戶投訴。從被全民吐槽的12306驗(yàn)證碼可窺見一二谋梭,我認(rèn)為對(duì)于專業(yè)從事垃圾信息發(fā)布者是沒有明顯效果的信峻。如果收益巨大,在驗(yàn)證碼這個(gè)環(huán)節(jié)甚至可以人工識(shí)別瓮床。君不見12306眼下還是沒有躲過黃牛~但作為一個(gè)提高成本的手段盹舞,可以設(shè)置驗(yàn)證碼产镐,但一定考慮到正常用戶的操作,切忌驗(yàn)證碼太變態(tài)踢步。
關(guān)于驗(yàn)證碼的具體形式和變種癣亚,這里不在贅述,感興趣的可以去搜索获印。
c.發(fā)布機(jī)制改良逃糟,是先審后發(fā),還是先發(fā)后審
對(duì)于非信任用戶(新用戶)和信任用戶分別對(duì)待蓬豁。
非信任用戶一般不是平臺(tái)核心用戶绰咽,如果要做嚴(yán)謹(jǐn)處理,他們發(fā)布的內(nèi)容是需要先經(jīng)過審核才能放出來的地粪,比如:什么值得買的文章評(píng)論需要經(jīng)過審核取募。
何為信任用戶?一個(gè)產(chǎn)品80%的內(nèi)容主要有20%的核心用戶創(chuàng)造蟆技,這里就需要考慮幾個(gè)問題:
1.如果一視同仁玩敏,這些用戶的體驗(yàn)必然遭到打擊,如何保證著少數(shù)價(jià)值用戶的體驗(yàn)?zāi)兀?/p>
2.如果每個(gè)人都審核的話质礼,對(duì)平臺(tái)的運(yùn)營(yíng)壓力太大旺聚,人力成本也很高
3.平臺(tái)的氛圍需要及時(shí)得到保證,所以好的內(nèi)容不應(yīng)該受到阻塞
所以眶蕉,我們可以設(shè)立白名單機(jī)制砰粹。把一部分核心用戶加入白名單,也就是可信任的用戶造挽,不受任何限制碱璃,保護(hù)了核心用戶的體驗(yàn),同時(shí)也減輕了審核的負(fù)擔(dān)饭入,在審核時(shí)可以最后審核這些用戶的內(nèi)容嵌器,從而保證更快的把垃圾信息優(yōu)先處理。
那么問題來了谐丢,保證一小部分人的體驗(yàn)爽航,這就足夠了嗎?對(duì)于上千萬的用戶來說乾忱,太不夠了讥珍。所以白名單又需要定期維護(hù),把具有某些特征的用戶加入到白名單饭耳,特征可以是注冊(cè)了一定時(shí)間的串述,所有發(fā)布的內(nèi)容是正常的,具有一定等級(jí)的用戶等等寞肖,結(jié)合自己的產(chǎn)品可以自定義一些符合正常用戶的規(guī)則纲酗,區(qū)別對(duì)待衰腌。
d.發(fā)布過程處理
在用戶發(fā)布內(nèi)容時(shí),檢測(cè)是否含有敏感詞觅赊,如果有禁止提交右蕊。但這里的敏感詞,因?yàn)槭菣C(jī)器處理吮螺,可能會(huì)出現(xiàn)誤判饶囚,所以需要有申訴的入口及人工處理。
三鸠补、對(duì)漏網(wǎng)之魚采取針對(duì)性審核措施
即時(shí)從源頭杜絕的措施做得再完善萝风,也終究難以完全避免那些鉆漏洞的內(nèi)容,所以我們需要對(duì)漏網(wǎng)之魚采取針對(duì)性的審核措施紫岩。
先來看看规惰,我們審核的內(nèi)容一般存在哪些情況:
①涉及黃暴、政治等很明顯違規(guī)內(nèi)容
②擦邊球內(nèi)容
③內(nèi)容性質(zhì)OK泉蝌,但并不符合平臺(tái)調(diào)性/標(biāo)準(zhǔn)
④完全ok
針對(duì)以上四種內(nèi)容歇万,一般需要機(jī)器和人工審核雙重過濾。根據(jù)不同業(yè)務(wù)需求勋陪,信息量及風(fēng)險(xiǎn)權(quán)衡贪磺,人機(jī)審核比例會(huì)有所不同。下面根據(jù)不同平臺(tái)的內(nèi)容形式進(jìn)行區(qū)別分析:
1.?文字內(nèi)容方面
①使用敏感詞過濾系統(tǒng)诅愚。
信息審核工作都是在信息審核平臺(tái)上進(jìn)行的寒锚,網(wǎng)站/產(chǎn)品的運(yùn)營(yíng)審核系統(tǒng)中會(huì)預(yù)先設(shè)定一批關(guān)鍵詞庫并對(duì)詞組進(jìn)行排列組合,這批詞庫又會(huì)根據(jù)敏感性進(jìn)行分類呻粹。系統(tǒng)會(huì)阻止用戶發(fā)布敏感詞匯壕曼,或?qū)⒂脩舭l(fā)出來的含有敏感詞的內(nèi)容直接刪除。對(duì)于某些敏感性較低的詞匯等浊,發(fā)出來不會(huì)立即刪除,需要經(jīng)過審核人員過目進(jìn)行二次審核摹蘑。
也可以利用一些第三方平臺(tái)進(jìn)行更全面的過濾筹燕,比如:網(wǎng)易云易盾
2)建立反垃圾信息(anti-spam)機(jī)制。
我們經(jīng)常會(huì)遇到一些垃圾信息衅鹿,比如郵箱中收到的各種垃圾郵件撒踪、新浪微博的僵尸粉以及論壇中層出不窮的廣告貼等等。有人會(huì)不停的去尋找網(wǎng)站的漏洞以及規(guī)則大渤,使用機(jī)器發(fā)布這些垃圾廣告從而達(dá)到營(yíng)利目的制妄。anti-spam主要是指通過技術(shù)手段對(duì)數(shù)據(jù)進(jìn)行過濾和篩選,將我們認(rèn)定為不合格的數(shù)據(jù)清理掉泵三,將系統(tǒng)認(rèn)為可疑的信息進(jìn)行提示分類耕捞。anti-spam對(duì)審核工作也是一個(gè)相輔相成的內(nèi)容衔掸。
2、?圖片內(nèi)容方面
對(duì)于圖片內(nèi)容的審核俺抽,傳統(tǒng)的審核方式主要依賴于人工敞映。圖片不同于文字,無法提取關(guān)鍵詞磷斧,對(duì)于大多數(shù)互聯(lián)網(wǎng)公司在技術(shù)上無法達(dá)到振愿,否則也就不會(huì)出現(xiàn)鑒黃師這樣的職業(yè)了。
另一種方式是引導(dǎo)用戶使用舉報(bào)功能弛饭,充分調(diào)動(dòng)廣大人民群眾的力量冕末。目前很多帶有社交屬性的網(wǎng)站和App,都會(huì)為用戶開通舉報(bào)功能侣颂。用戶在瀏覽內(nèi)容中發(fā)現(xiàn)色情視頻档桃、圖片等不良信息,可以通過點(diǎn)擊相應(yīng)按鈕或者鏈接的形式横蜒,向管理員舉報(bào)胳蛮,并由管理員完成刪圖或者封號(hào)等后續(xù)處理。
另一種比較節(jié)省官方成本的方式為用戶授權(quán)丛晌,有一些以話題為主的產(chǎn)品仅炊,比如最右,會(huì)專門為話題招募合適的“話事者”澎蛛,“話事者”角色存在的價(jià)值在于:引導(dǎo)該話題下用戶發(fā)布的內(nèi)容調(diào)性抚垄,同時(shí)進(jìn)行內(nèi)容的基礎(chǔ)審核;再比如貼吧的大小吧主谋逻、興趣部落的酋長(zhǎng)呆馁,都會(huì)積極維護(hù)自己所在社區(qū)的氛圍和內(nèi)容調(diào)性,這其實(shí)是一種轉(zhuǎn)移官方成本的運(yùn)營(yíng)方式毁兆,對(duì)用戶來說浙滤,也能有強(qiáng)烈的參與感和自豪感,所以值得一試气堕。
3纺腊、視頻內(nèi)容方面
視頻網(wǎng)站的內(nèi)容審核工作主要有兩個(gè)目的,一是合規(guī)茎芭,二是版權(quán)揖膜。其中合規(guī)問題涉及面更廣,包括色情梅桩、暴恐壹粟、涉政等。當(dāng)然內(nèi)容還要符合商業(yè)價(jià)值的需求宿百,比如廣告趁仙、謾罵等就很影響用戶體驗(yàn)洪添,影響商業(yè)變現(xiàn)。視頻網(wǎng)站通常都通過技術(shù)手段與人工審核相結(jié)合來完成審核工作幸撕,不管是先行過濾還是標(biāo)注某些內(nèi)容讓審核人員重點(diǎn)關(guān)注薇组,審核系統(tǒng)都不可或缺。非直播內(nèi)容坐儿,都是先審后發(fā)律胀。另外,舉報(bào)通道和快速處理也是必備的貌矿。國(guó)內(nèi)視頻審核現(xiàn)狀參考:從B站炭菌、愛奇藝、映客的IPO上市逛漫,看國(guó)內(nèi)視頻公司的內(nèi)容審核現(xiàn)狀
視頻審核是一個(gè)難點(diǎn)黑低,但視頻網(wǎng)站要審核的不只是視頻,還包括用戶頭像酌毡、昵稱克握、簽名、標(biāo)題枷踏、標(biāo)簽菩暗、評(píng)論、彈幕旭蠕、站內(nèi)信等各種用戶可以自行輸入的圖像/文本內(nèi)容停团。這項(xiàng)工作如此復(fù)雜,審核系統(tǒng)需要全能掏熬、有策略佑稠、有進(jìn)步,才能保證審核效率及準(zhǔn)確性旗芬。
全能就是要通過各種算法搞定文本舌胶、圖像、音頻疮丛、視頻等不同內(nèi)容介質(zhì)辆琅,以及色情、暴力等不同違規(guī)類型这刷。這一點(diǎn),人工智能的進(jìn)展提供了有力的武器娩井。參考:人工智能是如何識(shí)別一張黃圖的暇屋?
策略不僅是通過正則表達(dá)式、智能算法對(duì)付內(nèi)容本身洞辣,還要通過IP咐刨、終端昙衅、郵箱、手機(jī)號(hào)等信息識(shí)別用戶的危險(xiǎn)程度定鸟,進(jìn)而做出不同處理而涉,比如限制發(fā)布時(shí)間間隔。注意人工智能可以依靠联予,不能依賴啼县。
進(jìn)步是因?yàn)楹诨耶a(chǎn)總會(huì)設(shè)法試探并突破現(xiàn)有系統(tǒng)的防御,比如曾有一些小語種沸久、偽低幼的攻擊繞過 YouTube 審核的案例季眷,運(yùn)營(yíng)人員和算法工程師需要合作不斷去完善系統(tǒng)敏感詞庫、邏輯及算法卷胯。
總之子刮,成熟的審核系統(tǒng),成熟的審核團(tuán)隊(duì)窑睁,應(yīng)用場(chǎng)景的覆蓋挺峡,都是身經(jīng)百戰(zhàn)練成的。下面看看具體的一些措施:
任何文件都有且只有一個(gè)獨(dú)一無二的MD5信息值担钮,MD5可以說是文件的“數(shù)字指紋”橱赠。對(duì)于含有視頻內(nèi)容的網(wǎng)盤或視頻網(wǎng)站,采取的方式是建立涉黃文件的MD5數(shù)據(jù)庫裳朋,用戶上傳后自動(dòng)分析MD5是否合法病线,則能避免涉黃文件的重復(fù)分享。審核人員再對(duì)通過自動(dòng)檢測(cè)的每條視頻進(jìn)行審查鲤嫡。
網(wǎng)監(jiān)有一個(gè)巨大的危險(xiǎn)MD5庫送挑,庫內(nèi)藏著各種不能流于世的視頻。視頻網(wǎng)站都需要接入這個(gè)庫暖眼,并在實(shí)際審核中增加自己的庫存惕耕。
通過MD5之后的視頻,第二步會(huì)經(jīng)歷機(jī)器審核的過濾诫肠。機(jī)器審核視頻同樣是基于深度學(xué)習(xí)圖像識(shí)別云司澎,實(shí)際也是將視頻截圖,由機(jī)器審核每一張截圖的安全性栋豫。不過具體是3秒截一張還是5秒截一張挤安,松緊度由視頻網(wǎng)站自己控制。
對(duì)于不能通過的視頻丧鸯,機(jī)器審核視頻會(huì)給出兩類結(jié)果:
確定不能通過的蛤铜,這類的準(zhǔn)確率幾乎能達(dá)到99.5%以上;
僅作參考的,準(zhǔn)確率在95%到97%围肥,這可能意味著該視頻需要再次進(jìn)行人工審核剿干。
從整個(gè)行業(yè)來說,機(jī)器基本能篩過99%的視頻穆刻,只有1%需要再次動(dòng)用人工置尔。如果是150萬的視頻,那人工只需要審核1.5萬個(gè)氢伟。
對(duì)于像優(yōu)酷榜轿、愛奇藝這樣的大型視頻網(wǎng)站采取的是先審后發(fā),而且更突出的是PGC部分的內(nèi)容腐芍。然而在國(guó)內(nèi)差导,多數(shù)UGC都是“先發(fā)后審”的,尤其在直播/短視頻領(lǐng)域猪勇,強(qiáng)調(diào)草根主播设褐,強(qiáng)調(diào)時(shí)效性。
由于每天新產(chǎn)生的內(nèi)容量太大泣刹,為了減輕審核工作助析,他們也有很多竅門,比如短視頻領(lǐng)域中椅您,會(huì)對(duì)新用戶和高危用戶的上傳會(huì)優(yōu)先審核外冀,是“重點(diǎn)關(guān)注對(duì)象”;
明星掀泳、大V等賬號(hào)會(huì)被設(shè)置成為信任賬戶雪隧,默認(rèn)他們發(fā)布的視頻不用通過審核。
在系統(tǒng)方面员舵,則會(huì)建立反垃圾屏蔽系統(tǒng)脑沿,記錄用戶行為、關(guān)鍵詞马僻、頭像MD5識(shí)別等進(jìn)行用戶和垃圾攔截庄拇;
對(duì)于直播領(lǐng)域,則會(huì)要求在畫面播出前完成機(jī)器審核(直播一般會(huì)有5-60s不等的延遲)韭邓,避免“造人事件”再次發(fā)生措近。
4、音頻內(nèi)容方面
有一些是語音為主的直播節(jié)目女淑,比如談話聊天瞭郑、脫口秀、在線廣播等鸭你。視頻檢測(cè)所使用到的圖像技術(shù)就很難在這些應(yīng)用場(chǎng)景發(fā)揮作用凰浮,所以音頻檢測(cè)需要有針對(duì)性的審核我抠。
①關(guān)于如何杜絕廣告、黃賭毒等
這時(shí)候就體現(xiàn)語音審核的困難了袜茧。個(gè)人覺得,靜態(tài)的內(nèi)容瓣窄,比如文字笛厦、圖片是最容易審核了,熟練了以后真的可以一目十行俺夕。
現(xiàn)在每天看首頁文章裳凸,跟糾察隊(duì)一樣,一眼發(fā)現(xiàn)廣告劝贸。
視頻也稍微好點(diǎn)姨谷,因?yàn)橛挟嬅婧妥帜福鶕?jù)情節(jié)的走向映九,可以大致推斷劇情發(fā)展梦湘,掌握套路以后,可以大段大段的跳過件甥。
音頻捌议,因?yàn)橹豢柯曇舴直妫豢梢砸稽c(diǎn)一點(diǎn)前進(jìn)引有,所以消耗的時(shí)間比較長(zhǎng)瓣颅。這就是為什么,作者會(huì)說最難的審核方式就是音頻吧譬正。
②審核音頻的不同點(diǎn)在哪里宫补?
分為兩個(gè)方面,審核音質(zhì)和內(nèi)容曾我。審核音質(zhì)粉怕,音調(diào)是否一致比較平穩(wěn)崇决,不會(huì)突然特別高亢檐盟,給聽者造成不適感,只要發(fā)現(xiàn)在開頭轴合、中間和結(jié)尾保持一致虐秦,就比較好判斷平酿。音色是不是比較好聽,如果太難聽的聲音悦陋,再見噢~
審核內(nèi)容蜈彼,就跟我們審核文章差不多。從標(biāo)題和開頭概括俺驶,可以知道整體的方向和選題幸逆,做基礎(chǔ)判斷棍辕。
③音頻審核技術(shù)
音頻可以分為有內(nèi)容和無內(nèi)容兩種:說話內(nèi)容相關(guān)的包括說了什么?(涉政还绘、涉黃楚昭、涉賭還是廣告信息),另外還可以從說話內(nèi)容來判斷語種以及說話人的辨識(shí)拍顷;此外還有與說話內(nèi)容無關(guān)的信息抚太,例如特定錄音片段、歌曲旋律昔案、環(huán)境音等等尿贫。
針對(duì)不同的數(shù)據(jù)類型有不同的檢測(cè)技術(shù)。針對(duì)說話內(nèi)容有語音識(shí)別踏揣、關(guān)鍵詞檢索等庆亡;針對(duì)語種的判別有語種識(shí)別的技術(shù);針對(duì)說話人的識(shí)別有聲紋識(shí)別技術(shù)捞稿;針對(duì)說話內(nèi)容無關(guān)的通常采用音頻比對(duì)的技術(shù)來進(jìn)行檢測(cè)又谋。
語音識(shí)別的關(guān)鍵技術(shù)——聲學(xué)模型
語音識(shí)別的聲學(xué)模型主要有以下兩種:混合聲學(xué)模型和端到端的聲學(xué)模型。
混合聲學(xué)模型通常是隱馬爾科夫模型結(jié)合混合高斯括享、深度神經(jīng)網(wǎng)絡(luò)搂根、深度循環(huán)神經(jīng)網(wǎng)絡(luò)以及深度卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)模型。
端到端聲學(xué)模型目前有兩大類铃辖,一是連接時(shí)序分類—長(zhǎng)短時(shí)記憶模型剩愧,二是注意力模型。
聲學(xué)模型:
聲學(xué)模型——混合高斯—隱馬爾科夫模型
聲學(xué)模型——深度神經(jīng)網(wǎng)絡(luò)—隱馬爾科夫模型
聲學(xué)模型——深度循環(huán)神經(jīng)網(wǎng)絡(luò)—隱馬爾科夫模型
聲學(xué)模型——長(zhǎng)短時(shí)記憶模型
聲學(xué)模型——深度卷積神經(jīng)網(wǎng)絡(luò)—隱馬爾科夫模型
聲學(xué)模型——連接時(shí)序分類—長(zhǎng)短時(shí)記憶模型
聲學(xué)模型——注意力模型
語言模型:
語言模型——N-Gram
語言模型——DNN-Gram
語言模型——RNN-Gram
以上娇斩,涉及到音頻識(shí)別技術(shù)都比較專業(yè)仁卷,此處只是網(wǎng)上摘抄部分概念,我也不是很懂犬第,具體的需要查找相關(guān)資料作深入研究锦积。
擴(kuò)展1:人工智能審核方式
當(dāng)然還有種最新的使用人工智能技術(shù)的審核方式,目前市面上已經(jīng)有成熟的第三方公司提供API接口歉嗓,如云凈網(wǎng)提出的內(nèi)容安全管控體系丰介,通過信源、信道鉴分、信宿三方面分析哮幢,對(duì)信息內(nèi)容進(jìn)行分類管控,即UGC管控志珍、即時(shí)消息管控橙垢、視頻圖片管控;從違規(guī)文本識(shí)別引擎伦糯、違規(guī)圖片識(shí)別引擎柜某、異常行為分析引擎嗽元、風(fēng)險(xiǎn)決策引擎四項(xiàng)技術(shù),對(duì)平臺(tái)數(shù)據(jù)進(jìn)行整體分析喂击。利用安全大數(shù)據(jù)用戶行為分析及語義分析剂癌,對(duì)內(nèi)容載體進(jìn)行控制。
擴(kuò)展2:行為預(yù)測(cè)模式構(gòu)建
經(jīng)常生產(chǎn)垃圾信息的用戶一般都有某些共性惭等,這些共性一般有兩類:
狀態(tài):比如昵稱普遍符合某些規(guī)則珍手、簡(jiǎn)介/簽名里面帶有營(yíng)銷推廣詞匯、頭像是二維碼等等
行為:喜歡在特定時(shí)間點(diǎn)發(fā)布內(nèi)容辞做、批量操作、停留時(shí)長(zhǎng)很特殊等等
有條件的情況寡具,需要針對(duì)這些數(shù)據(jù)進(jìn)行建模處理秤茅,構(gòu)建垃圾用戶的畫像,并引入機(jī)器學(xué)習(xí)算法童叠,方便后期進(jìn)行智能監(jiān)測(cè)框喳。
總結(jié):
①反垃圾處理是一個(gè)長(zhǎng)期斗爭(zhēng)的過程,需要不斷利用先進(jìn)的技術(shù)結(jié)合巧妙的手段來跟進(jìn)厦坛,最終目的都是為了降低人力成本五垮,保護(hù)平臺(tái)生態(tài)和諧;
②反垃圾處理的過程中杜秸,需要針對(duì)特殊情況及時(shí)調(diào)整策略放仗,時(shí)刻注意,不斷優(yōu)化審核機(jī)制撬碟,修補(bǔ)漏洞诞挨;
③對(duì)于那些不合規(guī)的用戶,要及時(shí)進(jìn)行針對(duì)性處理呢蛤,給平臺(tái)其他用戶一個(gè)及時(shí)反饋惶傻。
我是不二翔叔,歡迎關(guān)注我~