「瓦力保鏢」

知乎上線算法新功能「瓦力保鏢」智能識(shí)別陰陽怪氣內(nèi)容

  1. 「瓦力」

介紹:「瓦力」是知乎打造「智能社區(qū)」的AI 算法系統(tǒng)赏枚,于 2016 年正式上線

功能:識(shí)別亡驰、處理包含辱罵、人身攻擊的不友善評(píng)論饿幅,以及答非所問凡辱、低質(zhì)提問等內(nèi)容;全年無休栗恩、24小時(shí)在線

  1. 「瓦力保鏢」

模型:情感模型透乾、用戶親密度模型、文本識(shí)別模型

優(yōu)點(diǎn):
1) 大幅優(yōu)化了AI 識(shí)別的準(zhǔn)確率【(TP+TN)/(TP+TN+FP+FN)】
2) 主動(dòng)對(duì)網(wǎng)友評(píng)論的「陰陽怪氣」內(nèi)容進(jìn)行進(jìn)行毫秒級(jí)智能識(shí)別和折疊處理

功能:識(shí)別并處理那些不友善磕秤、辱罵乳乌、陰陽怪氣、答非所問市咆、色情內(nèi)容以及知乎不鼓勵(lì)的用戶爆照

痛點(diǎn)①

答非所問钦扭、評(píng)論區(qū)水化、回復(fù)者陰陽怪氣床绪、找到志同道合的人越來越難的情況蔓延開,使一大批優(yōu)秀答主們生產(chǎn)內(nèi)容的熱情大減其弊,甚至淡出社區(qū)

目標(biāo):

提升社區(qū)維護(hù)效率癞己,全力維護(hù)認(rèn)真、專業(yè)梭伐、友善的討論氛圍痹雅,保護(hù)每一位用戶的分享和好奇心

解決方案的迭代:

1)早期:依靠用戶舉報(bào)和人工運(yùn)營(yíng),逐條處理帖子里的情緒毒瘤

2)瓦力前期:

背景:

無論處理量糊识,還是處理的時(shí)效性绩社,都已經(jīng)超出人工干預(yù)能承受的負(fù)荷(平均每天知乎上會(huì)產(chǎn)生10萬條回答,它們會(huì)衍生出50萬至60萬條評(píng)論赂苗,這些內(nèi)容中又有成千上萬條會(huì)被用戶標(biāo)注為舉報(bào))愉耙。故2016年,知乎上線了機(jī)器人瓦力

方案:

負(fù)責(zé)瓦力的算法工程師拌滋,會(huì)根據(jù)不同場(chǎng)景朴沿,人工構(gòu)建包含一些嘲諷特征的關(guān)鍵詞匯包,輸入算法作為一種衡量維度败砂。當(dāng)檢測(cè)到不友善關(guān)鍵詞赌渣,瓦力就會(huì)自動(dòng)折疊答案

3)瓦力后期:

背景:

隨著瓦力試圖識(shí)別反諷評(píng)論,即所謂罵人不吐臟字的陰陽怪氣昌犹,關(guān)鍵詞法失效坚芜。諷刺對(duì)負(fù)面情緒的表達(dá),隱蔽又多變斜姥。如果不看上下文語境鸿竖,人類也未必聽得出來沧竟。(比如上文說你數(shù)學(xué)考了100分,我說你太牛了千贯,那就是贊揚(yáng)屯仗。但如果上文是你數(shù)學(xué)考了20分,那這就是諷刺搔谴。另一個(gè)問題是魁袜,數(shù)學(xué)考20分是高是低?對(duì)于人類敦第,生活常識(shí)會(huì)積累起感性的判斷峰弹。但對(duì)于機(jī)器,這種價(jià)值判斷卻無從著手芜果。當(dāng)算法試圖識(shí)別諷刺鞠呈,擺在它面前的就是各式各樣的場(chǎng)景,和各式各樣的價(jià)值判斷)

方案:

首先通過知乎社區(qū)里的舉報(bào)右钾、反對(duì)等負(fù)向用戶行為收集訓(xùn)練數(shù)據(jù)蚁吝。然后通過各種同義替換、規(guī)則模版方式對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展舀射,以緩解訓(xùn)練數(shù)據(jù)稀疏的問題窘茁。同時(shí),“瓦力”提取文本脆烟、句法山林、表情符等特征,并利用一個(gè)帶attention的CNN和LSTM的融合模型進(jìn)行分類邢羔,最終判斷出內(nèi)容是否為陰陽怪氣

image.gif

實(shí)現(xiàn)方式:

當(dāng)評(píng)論發(fā)出后驼抹,「瓦力」作為先頭部隊(duì),進(jìn)行自動(dòng)識(shí)別和清理拜鹤,接下來框冀,回答評(píng)論區(qū)中有「折疊」和「踩」兩個(gè)功能,每個(gè)人都可以對(duì)不禮貌的評(píng)論點(diǎn)擊「踩」敏簿。當(dāng)被踩評(píng)論的分值達(dá)到一定閾值后左驾,評(píng)論會(huì)被自動(dòng)折疊。同時(shí)极谊,回答者擁有「一鍵折疊/取消折疊」的權(quán)利诡右,進(jìn)一步加大了對(duì)回答評(píng)論區(qū)的可控力度。此外轻猖,用戶也有點(diǎn)擊舉報(bào)和申訴的權(quán)利帆吻,而知乎管理員會(huì)定期人工處理折疊區(qū)中的辱罵評(píng)論和帳號(hào)


image.gif
image.gif

痛點(diǎn)②:

人們對(duì)辱罵等內(nèi)容可以基本形成統(tǒng)一的判斷標(biāo)準(zhǔn),但卻可能因文化背景咙边、理解程度或是生活經(jīng)歷的不同猜煮,對(duì)「陰陽怪氣」的理解度次员、接受度存在差異

目標(biāo):

分層清理諸如「陰陽怪氣」、「發(fā)泄負(fù)面情緒」等嚴(yán)重影響知友討論體驗(yàn)的評(píng)論

解決方案:

提供兩種定制模式可供選擇:一種熱情王带、一種冷靜

1)熱情模式下的「瓦力保鏢」較為「勤勞」淑蔚,會(huì)積極地折疊掉任何它認(rèn)為有陰陽怪氣傾向的內(nèi)容;

2)冷靜的「瓦力保鏢」則會(huì)相對(duì)「保守」愕撰,只會(huì)對(duì)非常有把握的內(nèi)容進(jìn)行折疊處理

痛點(diǎn)③:

跟“小而美”的果殼不同刹衫,知乎追求更大的用戶量,即尋求更多廣告變現(xiàn)的基礎(chǔ)搞挣。故需用AI去提升運(yùn)營(yíng)效率

目標(biāo):

根據(jù)興趣讓用戶分層带迟、建立人與人之間的聯(lián)系,建立一個(gè)智能社區(qū)囱桨。推送消息仓犬,作為輿論警察,消除城市中的負(fù)面情緒和暴力

解決方案:

機(jī)器用一套權(quán)重體系定義著你在各個(gè)領(lǐng)域的專業(yè)程度舍肠。不過用戶的認(rèn)識(shí)水平和知識(shí)結(jié)構(gòu)可能隨著時(shí)間變化搀继、升級(jí),因此知乎的算法也需要實(shí)時(shí)追蹤用戶的水平翠语。每?jī)蓚€(gè)居民之間會(huì)基于興趣偏好律歼、個(gè)人在知乎的行為以及社交關(guān)系的向量,被計(jì)算出一個(gè)親密值啡专。親密值的范圍在負(fù)一到正一之間。知乎算法會(huì)計(jì)算兩個(gè)陌生人之間產(chǎn)生連接的概率制圈,然后通過推薦等手法讓他們相遇们童。但當(dāng)用戶之間爆發(fā)過謾罵沖突,親密值偏向于負(fù)一一極鲸鹦,算法就會(huì)盡量降低他們相遇的概率

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末慧库,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子馋嗜,更是在濱河造成了極大的恐慌齐板,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件葛菇,死亡現(xiàn)場(chǎng)離奇詭異甘磨,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)眯停,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門济舆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人莺债,你說我怎么就攤上這事滋觉∏┴玻” “怎么了?”我有些...
    開封第一講書人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵椎侠,是天一觀的道長(zhǎng)第租。 經(jīng)常有香客問我,道長(zhǎng)我纪,這世上最難降的妖魔是什么慎宾? 我笑而不...
    開封第一講書人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮宣羊,結(jié)果婚禮上璧诵,老公的妹妹穿的比我還像新娘。我一直安慰自己仇冯,他們只是感情好之宿,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著苛坚,像睡著了一般比被。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上泼舱,一...
    開封第一講書人閱讀 51,274評(píng)論 1 300
  • 那天等缀,我揣著相機(jī)與錄音,去河邊找鬼娇昙。 笑死尺迂,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的冒掌。 我是一名探鬼主播噪裕,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼股毫!你這毒婦竟也來了膳音?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤铃诬,失蹤者是張志新(化名)和其女友劉穎祭陷,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體趣席,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡兵志,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了宣肚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片毒姨。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖钉寝,靈堂內(nèi)的尸體忽然破棺而出弧呐,到底是詐尸還是另有隱情闸迷,我是刑警寧澤,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布俘枫,位于F島的核電站腥沽,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏鸠蚪。R本人自食惡果不足惜今阳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望茅信。 院中可真熱鬧盾舌,春花似錦、人聲如沸蘸鲸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽酌摇。三九已至膝舅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間窑多,已是汗流浹背仍稀。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留埂息,地道東北人技潘。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像千康,于是被迫代替她去往敵國和親享幽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 睡夢(mèng)中牙疼醒了吧秕,打開手機(jī)一看,才剛剛四點(diǎn)鐘迹炼,本想接著睡到天亮砸彬,卻是怎么也睡不著了。 坐起身來斯入,把窗簾拉開砂碉,一片漆黑...
    李墨深閱讀 1,183評(píng)論 0 0
  • 什么是競(jìng)爭(zhēng) Mutex 的使用 什么是競(jìng)爭(zhēng) 看下面的代碼 我們對(duì)一個(gè)變量total 進(jìn)行1000次 +1 操作,不...
    酷走天涯閱讀 1,309評(píng)論 0 0
  • rte
    紅昔昔閱讀 82評(píng)論 0 0
  • 九月,局部降雨刻两, 電線桿上最老的那只麻雀去世了增蹭, 為表悼念, 天空又被重新刷了一層烏青色的漆磅摹。 稻草人風(fēng)干成佝僂的...
    素挲閱讀 175評(píng)論 0 4