記一次搜索排序問題算法設(shè)計記錄

先上圖


用戶數(shù)據(jù)堆疊


????????在上圖是目前遇到的最大問題跨嘉,按照一定的排序規(guī)則之后,我們根據(jù)收藏點擊等指標吃嘿,將數(shù)據(jù)選出來出現(xiàn)了顯示結(jié)果被一個用戶霸屏現(xiàn)象祠乃,如果是京東淘寶數(shù)據(jù),這種情況是比較好解決的兑燥,因為數(shù)據(jù)體量是不同級別的亮瓷。從技術(shù)角度來講,這些都是正常的降瞳,因為這些數(shù)據(jù)指標和seo都達到了指標嘱支,才會被排到了頂部。但是從ctr和業(yè)務(wù)角度來說挣饥,統(tǒng)一用戶數(shù)據(jù)霸屏一定是影響用戶體驗過程除师,我這里就不用 用戶域和內(nèi)容域匹配概率 分析了,這個也是淺顯的東西扔枫。我們就此問題討論一下然后汛聚,提出解決具體解決方案。?說個題外話短荐,此問題本身不是算法自身導(dǎo)致的倚舀,而是內(nèi)容管控問題叹哭,一個內(nèi)容app上升期都會遇到的問題,因此瞄桨,既然是必然出現(xiàn)的话速,所以有必要將心得洗(寫)出來,大家指正批評芯侥。

? ? ? ? ?類似算法對比

????????在實現(xiàn)過程中,鄙人有設(shè)計過另外一個排序算法乳讥,情景也比較類似柱查。業(yè)務(wù)如下:我們產(chǎn)品是由一個渠道詳情頁面的,詳情頁面有評價內(nèi)容云石,列表顯示唉工,如果該渠道的評價是由少量用戶多次評價出來的,那么在排序過程汹忠,按照預(yù)定的指標因子對評價內(nèi)容進行排序的話淋硝,會出現(xiàn)相同用戶內(nèi)容堆疊問題。作為排序任務(wù)宽菜,其實都是遇到了同樣的情形:在窗口內(nèi)容出現(xiàn)的聚類內(nèi)容不是自己想要的谣膳。像評價內(nèi)容數(shù)據(jù)打算的話,我當時給定的算法基調(diào)是铅乡,分桶继谚,按照識別特征分組,接下來游走編碼就能緩解這部分為題阵幸。反過來思考花履,es的搜索能這么做嗎?頻道內(nèi)容做評價排序的話挚赊,我們可以認為是將原本數(shù)據(jù)數(shù)據(jù)域維度已經(jīng)分好塊诡壁,只是說在子域內(nèi)的數(shù)據(jù)需要排序而已。從業(yè)務(wù)轉(zhuǎn)換為 空間維度 可表示為:es搜索(品類荠割,品牌妹卿,詞,排序因子,user) 與渠道評價(1,排序因子,user)的復(fù)雜度對比涨共。渠道評價內(nèi)容的排序算法纽帖,對排序的桶增加維度,就是 在 搜索模塊的算法举反。復(fù)用原有的評價內(nèi)容排序算法懊直,我們需要對內(nèi)容的 品牌和 品類識別 填充數(shù)據(jù),才能對內(nèi)容入桶編號火鼻,因此評價內(nèi)容排序算法不能應(yīng)用到搜索模塊室囊。

? ? ? ? ?需要算出異常用戶

? ? ? ? 我們目前的計算公式如下:S(I)*ES(I)? 雕崩,其中ES(I) 是搜索引擎控制的一個分值,我們可以將這個描述為SEO指標融撞。S(I)則是指標因子

用戶發(fā)布內(nèi)容盼铁,會優(yōu)先去踩點,自己的專注領(lǐng)域尝偎。一旦在專注領(lǐng)域和指標因子都達標了饶火,那么就會比較有機會上top n,在用戶專注度比較高的情況下致扯,就有機會出現(xiàn)搜索內(nèi)容霸屏情況肤寝。通過數(shù)據(jù)摸索,我發(fā)現(xiàn)數(shù)據(jù)其實規(guī)律性比較大抖僵,我們用戶群聚類鲤看,需要得到哪些用戶異常行為可能性比較大,原本的用戶族群100w級別? 可以縮短到1k級別耍群,業(yè)務(wù)是反應(yīng)出來是有一個 詞搜索 出現(xiàn) 同一用戶霸屏現(xiàn)象义桂,其實這個有可能是這個有一批用戶會有這樣的現(xiàn)象。

? ? ? ? ?先寫到這里了蹈垢,因為是邊處理問題邊記的東西慷吊,所以不會有太多的文字編排。

? ? ? ? 采坑記

在計算異常用戶的時候耘婚,出現(xiàn)一個細節(jié)問題罢浇,導(dǎo)致召回率特別高,而精確度不高沐祷,能召回表示大方出現(xiàn)問題的可能性比較小嚷闭,也就是另外一個影響 檢查用戶是不是異常用戶的 因數(shù)沒有加入?期待改進之后效果? go? ? 2020/10/09


? ? ? ? 黎明前的寒冷 2020/10/11

今天調(diào)整了思路赖临,采用了針對 詞的重要程度區(qū)分計算胞锰,融合到 前面計算影響因子,這個思路想了很久兢榨,感覺應(yīng)該可以嗅榕,目前在調(diào)試數(shù)據(jù)。


? ? ? ? ?勝利是個假象吵聪??2020/10/12

今天調(diào)試的數(shù)據(jù)來看凌那,召回率沒有降低,但是準確率還是沒有達到要求吟逝,十分失望帽蝶,應(yīng)該是降權(quán)的閾值設(shè)置太小了。


? ? ? ? ?初見效果块攒??2020/10/16

今天上了一版生產(chǎn)環(huán)境励稳,效果已經(jīng)出來了佃乘,‘床墊’,檢索數(shù)據(jù)還是往優(yōu)化方向顯示驹尼。上圖


改進后效果


????????初見效果趣避??2020/10/19

? ?周六計算了數(shù)據(jù),用于改良上周五新翎,出現(xiàn)的 星夕床墊的出現(xiàn)的用戶出現(xiàn)前top 50 概率程帕。



總結(jié): 目前解決思路因為是邊做邊記錄問題的方式,所以解決思路還是沒有具體說明:

? ? 1地啰、首先我們需要肯定自己在 搜索圖片這塊的正確性骆捧,也就是按照 交互看數(shù)據(jù),以及SEO 的排序方式是合理有效的髓绽。

? ? 2、出現(xiàn) 【星夕床墊】用戶 在床墊 領(lǐng)域的檢索出現(xiàn)霸屏情況也是利用了 我們app產(chǎn)品排序準則妆绞,也就是說 競排機制不太完善顺呕,需要改善。

? ? 3括饶、鑒于此情景類似 之前設(shè)計的 渠道 評價內(nèi)容排序場景株茶,復(fù)用算法問題經(jīng)過討論 認為 維度不同導(dǎo)致需要另外設(shè)計一套 用于適配當前情況。

? ? 4图焰、確定思路之后启盛,就是在,寫代碼檢測? 壞數(shù)據(jù)技羔,并且修復(fù)僵闯。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市藤滥,隨后出現(xiàn)的幾起案子鳖粟,更是在濱河造成了極大的恐慌,老刑警劉巖拙绊,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件向图,死亡現(xiàn)場離奇詭異,居然都是意外死亡标沪,警方通過查閱死者的電腦和手機榄攀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來金句,“玉大人檩赢,你說我怎么就攤上這事∨可遥” “怎么了漠畜?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵币他,是天一觀的道長。 經(jīng)常有香客問我憔狞,道長蝴悉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任瘾敢,我火速辦了婚禮拍冠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘簇抵。我一直安慰自己庆杜,他們只是感情好,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布碟摆。 她就那樣靜靜地躺著晃财,像睡著了一般。 火紅的嫁衣襯著肌膚如雪典蜕。 梳的紋絲不亂的頭發(fā)上断盛,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音愉舔,去河邊找鬼钢猛。 笑死,一個胖子當著我的面吹牛轩缤,可吹牛的內(nèi)容都是我干的命迈。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼火的,長吁一口氣:“原來是場噩夢啊……” “哼壶愤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起卫玖,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤公你,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后假瞬,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陕靠,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年脱茉,在試婚紗的時候發(fā)現(xiàn)自己被綠了剪芥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡琴许,死狀恐怖税肪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤益兄,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布锻梳,位于F島的核電站,受9級特大地震影響净捅,放射性物質(zhì)發(fā)生泄漏疑枯。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一蛔六、第九天 我趴在偏房一處隱蔽的房頂上張望荆永。 院中可真熱鬧,春花似錦国章、人聲如沸具钥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽骂删。三九已至,卻和暖如春四啰,著一層夾襖步出監(jiān)牢的瞬間桃漾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工拟逮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人适滓。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓敦迄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親凭迹。 傳聞我的和親對象是個殘疾皇子罚屋,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348