先上圖
????????在上圖是目前遇到的最大問題跨嘉,按照一定的排序規(guī)則之后,我們根據(jù)收藏點擊等指標吃嘿,將數(shù)據(jù)選出來出現(xiàn)了顯示結(jié)果被一個用戶霸屏現(xiàn)象祠乃,如果是京東淘寶數(shù)據(jù),這種情況是比較好解決的兑燥,因為數(shù)據(jù)體量是不同級別的亮瓷。從技術(shù)角度來講,這些都是正常的降瞳,因為這些數(shù)據(jù)指標和seo都達到了指標嘱支,才會被排到了頂部。但是從ctr和業(yè)務(wù)角度來說挣饥,統(tǒng)一用戶數(shù)據(jù)霸屏一定是影響用戶體驗過程除师,我這里就不用 用戶域和內(nèi)容域匹配概率 分析了,這個也是淺顯的東西扔枫。我們就此問題討論一下然后汛聚,提出解決具體解決方案。?說個題外話短荐,此問題本身不是算法自身導(dǎo)致的倚舀,而是內(nèi)容管控問題叹哭,一個內(nèi)容app上升期都會遇到的問題,因此瞄桨,既然是必然出現(xiàn)的话速,所以有必要將心得洗(寫)出來,大家指正批評芯侥。
? ? ? ? ?類似算法對比
????????在實現(xiàn)過程中,鄙人有設(shè)計過另外一個排序算法乳讥,情景也比較類似柱查。業(yè)務(wù)如下:我們產(chǎn)品是由一個渠道詳情頁面的,詳情頁面有評價內(nèi)容云石,列表顯示唉工,如果該渠道的評價是由少量用戶多次評價出來的,那么在排序過程汹忠,按照預(yù)定的指標因子對評價內(nèi)容進行排序的話淋硝,會出現(xiàn)相同用戶內(nèi)容堆疊問題。作為排序任務(wù)宽菜,其實都是遇到了同樣的情形:在窗口內(nèi)容出現(xiàn)的聚類內(nèi)容不是自己想要的谣膳。像評價內(nèi)容數(shù)據(jù)打算的話,我當時給定的算法基調(diào)是铅乡,分桶继谚,按照識別特征分組,接下來游走編碼就能緩解這部分為題阵幸。反過來思考花履,es的搜索能這么做嗎?頻道內(nèi)容做評價排序的話挚赊,我們可以認為是將原本數(shù)據(jù)數(shù)據(jù)域維度已經(jīng)分好塊诡壁,只是說在子域內(nèi)的數(shù)據(jù)需要排序而已。從業(yè)務(wù)轉(zhuǎn)換為 空間維度 可表示為:es搜索(品類荠割,品牌妹卿,詞,排序因子,user) 與渠道評價(1,排序因子,user)的復(fù)雜度對比涨共。渠道評價內(nèi)容的排序算法纽帖,對排序的桶增加維度,就是 在 搜索模塊的算法举反。復(fù)用原有的評價內(nèi)容排序算法懊直,我們需要對內(nèi)容的 品牌和 品類識別 填充數(shù)據(jù),才能對內(nèi)容入桶編號火鼻,因此評價內(nèi)容排序算法不能應(yīng)用到搜索模塊室囊。
? ? ? ? ?需要算出異常用戶
? ? ? ? 我們目前的計算公式如下:S(I)*ES(I)? 雕崩,其中ES(I) 是搜索引擎控制的一個分值,我們可以將這個描述為SEO指標融撞。S(I)則是指標因子
用戶發(fā)布內(nèi)容盼铁,會優(yōu)先去踩點,自己的專注領(lǐng)域尝偎。一旦在專注領(lǐng)域和指標因子都達標了饶火,那么就會比較有機會上top n,在用戶專注度比較高的情況下致扯,就有機會出現(xiàn)搜索內(nèi)容霸屏情況肤寝。通過數(shù)據(jù)摸索,我發(fā)現(xiàn)數(shù)據(jù)其實規(guī)律性比較大抖僵,我們用戶群聚類鲤看,需要得到哪些用戶異常行為可能性比較大,原本的用戶族群100w級別? 可以縮短到1k級別耍群,業(yè)務(wù)是反應(yīng)出來是有一個 詞搜索 出現(xiàn) 同一用戶霸屏現(xiàn)象义桂,其實這個有可能是這個有一批用戶會有這樣的現(xiàn)象。
? ? ? ? ?先寫到這里了蹈垢,因為是邊處理問題邊記的東西慷吊,所以不會有太多的文字編排。
? ? ? ? 采坑記
在計算異常用戶的時候耘婚,出現(xiàn)一個細節(jié)問題罢浇,導(dǎo)致召回率特別高,而精確度不高沐祷,能召回表示大方出現(xiàn)問題的可能性比較小嚷闭,也就是另外一個影響 檢查用戶是不是異常用戶的 因數(shù)沒有加入?期待改進之后效果? go? ? 2020/10/09
? ? ? ? 黎明前的寒冷 2020/10/11
今天調(diào)整了思路赖临,采用了針對 詞的重要程度區(qū)分計算胞锰,融合到 前面計算影響因子,這個思路想了很久兢榨,感覺應(yīng)該可以嗅榕,目前在調(diào)試數(shù)據(jù)。
? ? ? ? ?勝利是個假象吵聪??2020/10/12
今天調(diào)試的數(shù)據(jù)來看凌那,召回率沒有降低,但是準確率還是沒有達到要求吟逝,十分失望帽蝶,應(yīng)該是降權(quán)的閾值設(shè)置太小了。
? ? ? ? ?初見效果块攒??2020/10/16
今天上了一版生產(chǎn)環(huán)境励稳,效果已經(jīng)出來了佃乘,‘床墊’,檢索數(shù)據(jù)還是往優(yōu)化方向顯示驹尼。上圖
????????初見效果趣避??2020/10/19
? ?周六計算了數(shù)據(jù),用于改良上周五新翎,出現(xiàn)的 星夕床墊的出現(xiàn)的用戶出現(xiàn)前top 50 概率程帕。
總結(jié): 目前解決思路因為是邊做邊記錄問題的方式,所以解決思路還是沒有具體說明:
? ? 1地啰、首先我們需要肯定自己在 搜索圖片這塊的正確性骆捧,也就是按照 交互看數(shù)據(jù),以及SEO 的排序方式是合理有效的髓绽。
? ? 2、出現(xiàn) 【星夕床墊】用戶 在床墊 領(lǐng)域的檢索出現(xiàn)霸屏情況也是利用了 我們app產(chǎn)品排序準則妆绞,也就是說 競排機制不太完善顺呕,需要改善。
? ? 3括饶、鑒于此情景類似 之前設(shè)計的 渠道 評價內(nèi)容排序場景株茶,復(fù)用算法問題經(jīng)過討論 認為 維度不同導(dǎo)致需要另外設(shè)計一套 用于適配當前情況。
? ? 4图焰、確定思路之后启盛,就是在,寫代碼檢測? 壞數(shù)據(jù)技羔,并且修復(fù)僵闯。