近日,頻頻上熱搜的抖音字節(jié)跳動公司又被點(diǎn)名了庶艾。這次是被人民日報(bào)狠狠地通報(bào)批評:直指抖音廣告出現(xiàn)對英烈邱少云不敬內(nèi)容袁余,現(xiàn)已被立案查處。
2018年咱揍,可謂北京字節(jié)跳動科技有限公司的多災(zāi)多難的一年颖榜。從年初抖音受追捧,到被叫停內(nèi)涵段子煤裙,到西瓜視頻被整改掩完,再到抖音視頻的多次被點(diǎn)名…似乎都在告訴我們一件事情:完全靠算法推薦的內(nèi)容運(yùn)營是被質(zhì)疑的!
我們都知道今日頭條推送的文章硼砰,采用的是算法分發(fā)且蓬,內(nèi)容來自PGC(專業(yè)內(nèi)容團(tuán)隊(duì))和UGC(用戶產(chǎn)生內(nèi)容),平臺不產(chǎn)生內(nèi)容题翰,靠推薦算法分發(fā)流量獲取用戶的關(guān)注恶阴,抖音也不例外。
這種推薦算法一味迎合讀者的“喜好”豹障,不斷推送你關(guān)心的冯事,喜好的內(nèi)容。而對于涉事較少的特別是對未成年來說血公,則在這些不斷迎合的內(nèi)容中更是無法自拔昵仅。他們?nèi)狈ε袛嗔Γ瑢τ诿襟w推薦的內(nèi)容更是有著潛在的信任感累魔,在自己標(biāo)簽不斷被確定岩饼,整個(gè)頁面都充斥著同一種偏好的內(nèi)容時(shí),會不會對自己的內(nèi)心或者三觀進(jìn)行不斷強(qiáng)化呢薛夜?這里暫且不說“喜好”標(biāo)簽是否準(zhǔn)確籍茧,只是在未成年人群中,這種推薦算法或許有著非常強(qiáng)的接受度梯澜,幫助他們減少了獲取同類喜好內(nèi)容的成本寞冯,并帶來了前所未有的快感,這也就有了前段時(shí)間說的“抖音5分鐘晚伙,線下5小時(shí)”的說法吮龄。
大家或許不信,我們看一組數(shù)據(jù)咆疗,這組數(shù)據(jù)的來源我還沒找到漓帚,對于調(diào)研背景,調(diào)研方式午磁,調(diào)研樣本量尝抖,調(diào)研選項(xiàng)都不清楚毡们,只是從結(jié)果看:超半數(shù)的95后想從事主播網(wǎng)紅,這也確實(shí)從某個(gè)角度反映了當(dāng)下一種趨勢和擇業(yè)觀昧辽,值得我們深思衙熔。
由此也越來越多的人將矛頭指向推薦算法。他們認(rèn)為算法給人帶來的是去中心化的內(nèi)容推送搅荞,去除了過去人工進(jìn)行內(nèi)容運(yùn)營的主管干預(yù)红氯,讓更多損害三觀的內(nèi)容得到了曝光和推廣,從而使得更多的未成年朋友受到了思想上的玷污咕痛。
對于這種看法我并不贊同痢甘。從結(jié)果導(dǎo)向上看確實(shí)如此,但是你如果知道推薦算法是如何產(chǎn)生的你就不那么想了茉贡,真的就是去中心化了嗎塞栅?真的就沒有主觀的人工干預(yù)嗎?這究根詰底確實(shí)是因?yàn)橥扑闼惴▽?dǎo)致的嗎块仆?
下面我們將以今日頭條的推薦系統(tǒng)為例构蹬,看看推算算法是怎么影響用戶的。
今日頭條的推薦系統(tǒng)悔据,如果用形式化的方式去描述實(shí)際上是擬合一個(gè)用戶對內(nèi)容滿意度的函數(shù)庄敛,這個(gè)函數(shù)需要輸入三個(gè)維度的變量。
維度1:內(nèi)容科汗。頭條現(xiàn)在已經(jīng)是一個(gè)綜合內(nèi)容平臺藻烤,圖文、視頻头滔、UGC小視頻怖亭、問答、微頭條坤检,每種內(nèi)容有很多自己的特征兴猩,需要考慮怎樣提取不同內(nèi)容類型的特征做好推薦。
維度2:用戶特征早歇。包括各種興趣標(biāo)簽倾芝,職業(yè)、年齡箭跳、性別等晨另,還有很多模型刻劃出的隱式用戶興趣等。
維度3:環(huán)境特征谱姓。這是移動互聯(lián)網(wǎng)時(shí)代推薦的特點(diǎn)借尿,用戶隨時(shí)隨地移動,在工作場合、通勤路翻、旅游等不同的場景狈癞,信息偏好有所偏移。
上面看起來很簡單帚桩,只有三個(gè)維度亿驾,但一個(gè)推薦模型實(shí)際上除了點(diǎn)擊率嘹黔、閱讀時(shí)間账嚎、點(diǎn)贊、評論儡蔓、轉(zhuǎn)發(fā)包括點(diǎn)贊都是可以量化的目標(biāo)外郭蕉,還需要引入很多無法直接通過模型指標(biāo)評估的其他因素。比如廣告和特型內(nèi)容頻控喂江。像問答卡片就是比較特殊的內(nèi)容形式召锈,其推薦的目標(biāo)不完全是讓用戶瀏覽,還要考慮吸引用戶回答為社區(qū)貢獻(xiàn)內(nèi)容获询。這些內(nèi)容和普通內(nèi)容如何混排涨岁,怎樣控制頻控都需要考慮。
此外吉嚣,平臺出于內(nèi)容生態(tài)和社會責(zé)任的考量梢薪,像低俗內(nèi)容的打壓,標(biāo)題黨尝哆、低質(zhì)內(nèi)容的打壓秉撇,重要新聞的置頂、加權(quán)秋泄、強(qiáng)插琐馆,低級別賬號內(nèi)容降權(quán)都是算法本身無法完成,需要進(jìn)一步對內(nèi)容進(jìn)行干預(yù)恒序。
這樣聽起來是不是就覺得復(fù)雜瘦麸,高大上很多了。(今天我重點(diǎn)要說的不是頭條的推薦算法模型歧胁,因此大致知道他們的推薦系統(tǒng)原理就好)
到這一步其實(shí)我們已經(jīng)可以知道算法工具的背后并不完全是去中心話的滋饲,算法雖說就那些:傳統(tǒng)的協(xié)同過濾模型,監(jiān)督學(xué)習(xí)算法Logistic Regression模型与帆,基于深度學(xué)習(xí)的模型了赌,F(xiàn)actorization Machine和GBDT等。但是它僅僅一個(gè)工具而已玄糟,如何發(fā)揮還取決于使用該項(xiàng)工具的人或團(tuán)體勿她。
所以推薦算法本身并沒有對錯(cuò),你能說警察和恐怖分子手中的槍有什么對錯(cuò)嗎阵翎?它只是一個(gè)被主人利用的“工具”而已逢并。