知乎上線算法新功能「瓦力保鏢」智能識(shí)別陰陽怪氣內(nèi)容
- 「瓦力」
介紹:「瓦力」是知乎打造「智能社區(qū)」的AI 算法系統(tǒng)赏枚,于 2016 年正式上線
功能:識(shí)別亡驰、處理包含辱罵、人身攻擊的不友善評(píng)論饿幅,以及答非所問凡辱、低質(zhì)提問等內(nèi)容;全年無休栗恩、24小時(shí)在線
- 「瓦力保鏢」
模型:情感模型透乾、用戶親密度模型、文本識(shí)別模型
優(yōu)點(diǎn):
1) 大幅優(yōu)化了AI 識(shí)別的準(zhǔn)確率【(TP+TN)/(TP+TN+FP+FN)】
2) 主動(dòng)對(duì)網(wǎng)友評(píng)論的「陰陽怪氣」內(nèi)容進(jìn)行進(jìn)行毫秒級(jí)智能識(shí)別和折疊處理
功能:識(shí)別并處理那些不友善磕秤、辱罵乳乌、陰陽怪氣、答非所問市咆、色情內(nèi)容以及知乎不鼓勵(lì)的用戶爆照
痛點(diǎn)①
答非所問钦扭、評(píng)論區(qū)水化、回復(fù)者陰陽怪氣床绪、找到志同道合的人越來越難的情況蔓延開,使一大批優(yōu)秀答主們生產(chǎn)內(nèi)容的熱情大減其弊,甚至淡出社區(qū)
目標(biāo):
提升社區(qū)維護(hù)效率癞己,全力維護(hù)認(rèn)真、專業(yè)梭伐、友善的討論氛圍痹雅,保護(hù)每一位用戶的分享和好奇心
解決方案的迭代:
1)早期:依靠用戶舉報(bào)和人工運(yùn)營(yíng),逐條處理帖子里的情緒毒瘤
2)瓦力前期:
背景:
無論處理量糊识,還是處理的時(shí)效性绩社,都已經(jīng)超出人工干預(yù)能承受的負(fù)荷(平均每天知乎上會(huì)產(chǎn)生10萬條回答,它們會(huì)衍生出50萬至60萬條評(píng)論赂苗,這些內(nèi)容中又有成千上萬條會(huì)被用戶標(biāo)注為舉報(bào))愉耙。故2016年,知乎上線了機(jī)器人瓦力
方案:
負(fù)責(zé)瓦力的算法工程師拌滋,會(huì)根據(jù)不同場(chǎng)景朴沿,人工構(gòu)建包含一些嘲諷特征的關(guān)鍵詞匯包,輸入算法作為一種衡量維度败砂。當(dāng)檢測(cè)到不友善關(guān)鍵詞赌渣,瓦力就會(huì)自動(dòng)折疊答案
3)瓦力后期:
背景:
隨著瓦力試圖識(shí)別反諷評(píng)論,即所謂罵人不吐臟字的陰陽怪氣昌犹,關(guān)鍵詞法失效坚芜。諷刺對(duì)負(fù)面情緒的表達(dá),隱蔽又多變斜姥。如果不看上下文語境鸿竖,人類也未必聽得出來沧竟。(比如上文說你數(shù)學(xué)考了100分,我說你太牛了千贯,那就是贊揚(yáng)屯仗。但如果上文是你數(shù)學(xué)考了20分,那這就是諷刺搔谴。另一個(gè)問題是魁袜,數(shù)學(xué)考20分是高是低?對(duì)于人類敦第,生活常識(shí)會(huì)積累起感性的判斷峰弹。但對(duì)于機(jī)器,這種價(jià)值判斷卻無從著手芜果。當(dāng)算法試圖識(shí)別諷刺鞠呈,擺在它面前的就是各式各樣的場(chǎng)景,和各式各樣的價(jià)值判斷)
方案:
首先通過知乎社區(qū)里的舉報(bào)右钾、反對(duì)等負(fù)向用戶行為收集訓(xùn)練數(shù)據(jù)蚁吝。然后通過各種同義替換、規(guī)則模版方式對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展舀射,以緩解訓(xùn)練數(shù)據(jù)稀疏的問題窘茁。同時(shí),“瓦力”提取文本脆烟、句法山林、表情符等特征,并利用一個(gè)帶attention的CNN和LSTM的融合模型進(jìn)行分類邢羔,最終判斷出內(nèi)容是否為陰陽怪氣
實(shí)現(xiàn)方式:
當(dāng)評(píng)論發(fā)出后驼抹,「瓦力」作為先頭部隊(duì),進(jìn)行自動(dòng)識(shí)別和清理拜鹤,接下來框冀,回答評(píng)論區(qū)中有「折疊」和「踩」兩個(gè)功能,每個(gè)人都可以對(duì)不禮貌的評(píng)論點(diǎn)擊「踩」敏簿。當(dāng)被踩評(píng)論的分值達(dá)到一定閾值后左驾,評(píng)論會(huì)被自動(dòng)折疊。同時(shí)极谊,回答者擁有「一鍵折疊/取消折疊」的權(quán)利诡右,進(jìn)一步加大了對(duì)回答評(píng)論區(qū)的可控力度。此外轻猖,用戶也有點(diǎn)擊舉報(bào)和申訴的權(quán)利帆吻,而知乎管理員會(huì)定期人工處理折疊區(qū)中的辱罵評(píng)論和帳號(hào)
痛點(diǎn)②:
人們對(duì)辱罵等內(nèi)容可以基本形成統(tǒng)一的判斷標(biāo)準(zhǔn),但卻可能因文化背景咙边、理解程度或是生活經(jīng)歷的不同猜煮,對(duì)「陰陽怪氣」的理解度次员、接受度存在差異
目標(biāo):
分層清理諸如「陰陽怪氣」、「發(fā)泄負(fù)面情緒」等嚴(yán)重影響知友討論體驗(yàn)的評(píng)論
解決方案:
提供兩種定制模式可供選擇:一種熱情王带、一種冷靜
1)熱情模式下的「瓦力保鏢」較為「勤勞」淑蔚,會(huì)積極地折疊掉任何它認(rèn)為有陰陽怪氣傾向的內(nèi)容;
2)冷靜的「瓦力保鏢」則會(huì)相對(duì)「保守」愕撰,只會(huì)對(duì)非常有把握的內(nèi)容進(jìn)行折疊處理
痛點(diǎn)③:
跟“小而美”的果殼不同刹衫,知乎追求更大的用戶量,即尋求更多廣告變現(xiàn)的基礎(chǔ)搞挣。故需用AI去提升運(yùn)營(yíng)效率
目標(biāo):
根據(jù)興趣讓用戶分層带迟、建立人與人之間的聯(lián)系,建立一個(gè)智能社區(qū)囱桨。推送消息仓犬,作為輿論警察,消除城市中的負(fù)面情緒和暴力
解決方案:
機(jī)器用一套權(quán)重體系定義著你在各個(gè)領(lǐng)域的專業(yè)程度舍肠。不過用戶的認(rèn)識(shí)水平和知識(shí)結(jié)構(gòu)可能隨著時(shí)間變化搀继、升級(jí),因此知乎的算法也需要實(shí)時(shí)追蹤用戶的水平翠语。每?jī)蓚€(gè)居民之間會(huì)基于興趣偏好律歼、個(gè)人在知乎的行為以及社交關(guān)系的向量,被計(jì)算出一個(gè)親密值啡专。親密值的范圍在負(fù)一到正一之間。知乎算法會(huì)計(jì)算兩個(gè)陌生人之間產(chǎn)生連接的概率制圈,然后通過推薦等手法讓他們相遇们童。但當(dāng)用戶之間爆發(fā)過謾罵沖突,親密值偏向于負(fù)一一極鲸鹦,算法就會(huì)盡量降低他們相遇的概率