需求:
“每人可以根據(jù)自己的指標(biāo)對應(yīng)的特征有效性分析,提取出推薦給產(chǎn)品線在列表頁中展示的一些重要特征,引導(dǎo)用戶對排序結(jié)果的選擇、形成正向反饋”
答復(fù):
對于頁面停留時間弟孟,建議 在列表頁
的圖片上添加 圖片個數(shù)(在詳情頁中圖片上有圖片個數(shù)的顯示,如 2/10)
詳情頁頁面停留時間样悟,與文檔內(nèi)容的一致性分析:
特征有效性分析拂募,截圖:共58個特征,截取前30個
指標(biāo)是頁面停留時間:
(是列表頁點擊進入后的窟她,與詳情頁的頁面停留時間陈症,本意應(yīng)該與列表頁的元素?zé)o關(guān))
頁面停留時間,指標(biāo)處理并不是回歸震糖,而是分類爬凑,是根據(jù)中位數(shù)進行二分。
特征有效性靠前特征:圖片個數(shù)试伙;價格;
室于样; 裝修疏叨;衛(wèi); 廳穿剖;信息來源蚤蔓; 房子屬性;樓層糊余;地鐵線秀又;區(qū)域
特征有效性與文檔一致性分析:
越靠上越“重要”——耗時越多,下邊的耗時少贬芥。耗時第一位的是圖片吐辙,圖片多的耗時在中位數(shù)之上,圖片少的耗時在中位數(shù)之下蘸劈。
廳室衛(wèi) 在特征有效性分析中出現(xiàn)多次昏苏,累計權(quán)重第一。用戶需求與之匹配,則耗時在中位數(shù)之上贤惯,否則在中位數(shù)之下洼专。
其次是價格范圍,價格合適則停留時間高于中位數(shù)孵构,反之在中位數(shù)之下屁商。
再次是裝修。
最后是颈墅,房源來源蜡镶,title length;地鐵精盅;樓層帽哑;區(qū)域;房齡叹俏;面積妻枕;結(jié)構(gòu)
注意:朝向,總樓層粘驰,在特征有效性分析中屡谐,排名**個30位之后。
以上特征分析的結(jié)果蝌数,與詳情頁的元素基本匹配愕掏,基本符合邏輯。
思考:
根據(jù)指標(biāo)顶伞,負(fù)樣本應(yīng)該不包括未點擊的樣本饵撑。從指標(biāo)含義和指標(biāo)處理方式看(頁面停留時間+中位數(shù)二分法),
正負(fù)樣本不應(yīng)該含有列表頁的影響因素唆貌,即未點擊的樣本不應(yīng)該列入訓(xùn)練滑潘。
而在模型組合時,應(yīng)該是ctr模型串聯(lián)頁面停留時間模型锨咙∮锫保——目前,頁面停留時間是單獨使用酪刀,所以負(fù)樣本包含未點擊的樣本粹舵。
分析:
由于模型考慮了列表頁因素,所以對特征有效性與列表頁元素進行對應(yīng)分析骂倘,看是否符合邏輯:
特征有效性中重要特征:圖片個數(shù)眼滤;價格; 室历涝; 裝修柠偶;衛(wèi)情妖; 廳;信息來源诱担; 房子屬性毡证;樓層;地鐵線蔫仙;區(qū)域
列表頁用戶可見重要特征:價格料睛; 室;廳摇邦,區(qū)域(在標(biāo)簽欄中恤煞,有隨機出現(xiàn)的標(biāo)簽,如:房屋屬性施籍;樓層居扒;地鐵;)
結(jié)論:
基本一致丑慎。沒有顯著不一致的情況喜喂。
**重點重述:
**
從指標(biāo)含義和指標(biāo)處理方式看(頁面停留時間+中位數(shù)二分法),
正負(fù)樣本不應(yīng)該含有列表頁的影響因素竿裂,即未點擊的樣本不應(yīng)該列入訓(xùn)練玉吁。
在模型組合時,應(yīng)該是ctr模型串聯(lián)頁面停留時間模型腻异〗保——目前,頁面停留時間是單獨使用悔常,所以負(fù)樣本包含未點擊的樣本影斑。