對于搜索引擎而言,用戶算法的核心價值是用戶體驗至会,包括搜索內(nèi)容的相關性、內(nèi)容質(zhì)量及時效性等谱俭,其中內(nèi)容質(zhì)量是前置步驟奉件,既可以用于優(yōu)質(zhì)內(nèi)容源篩選,又可以作為搜索召回結果排序因素昆著,是決定高質(zhì)量搜索結果前提县貌。
內(nèi)容質(zhì)量主要有兩個維度。第一凑懂,EAT 分數(shù)煤痕,主要取決于文檔的來源和作者。EAT是專業(yè)性(expertise)征候、權威性(authoritativeness)杭攻、可信賴(trustworthiness)三個詞的首字母縮寫;第二疤坝,文字和圖片質(zhì)量兆解,包括文本質(zhì)量和圖片質(zhì)量(參考:https://toutiao.io/posts/izme1z1/preview,https://cloud.tencent.com/developer/news/490036)等跑揉。
爬蟲采集到了作者編號(account_id)锅睛,作者昵稱(master_name),作者領域(master_property)历谍,文章編號(pid),文章內(nèi)容(doc)现拒,文章類目(category)英遭,文章發(fā)布時間(publish_time)双肤,瀏覽量(view_num)飘言,收藏量(collect_num)钧嘶,一共12w行。通過 作者編號(account_id)露乏,作者昵稱(master_name)傀蓉,作者領域(master_property)撩幽,通過作者發(fā)文時間等字段,及計算作者創(chuàng)作年齡(span_date)匯總為author.csv數(shù)據(jù)退唠,通過編號(account_id)鹃锈,作者昵稱(master_name)文章編號(pid),文章內(nèi)容(doc),文章類目(category)瞧预,文章發(fā)布時間(publish_time)屎债,瀏覽量(view_num),收藏量(collect_num)匯總為works.csv數(shù)據(jù)垢油。
作者權重及排序
我們希望通過對作者進行打分盆驹,獲得‘’大師、專家‘’列表滩愁,用于在文章權威性評價指標召娜。由于是初始階段我們無法獲得大師名單列表,甚至作者名單都不全惊楼,因此需要先對爬蟲數(shù)據(jù)結構有一定了解。
我們根據(jù)auther.csv數(shù)據(jù)秸讹,將作者排序因素分類為作者影響力水平(eindex)檀咙、作者領域專業(yè)度(pindex)、作者流行性度(h index)等璃诀,其中:
(1)作者影響力水平評價:以作者作品瀏覽量和收藏數(shù)的H Index加權和作為影響力排序指標弧可;
(2)作者領域專業(yè)度評價:分別計算作者行業(yè)作品瀏覽率與行業(yè)平均瀏覽率占比和作者行業(yè)作品收藏率與行業(yè)平均收藏率占比,然后求兩項加權和作為評判作者在行業(yè)領域內(nèi)的專業(yè)度劣欢;
(3)作者流行性度:以作者月平均產(chǎn)出作品數(shù)棕诵、月平均作品瀏覽量、月平均作品收藏量凿将、月平均主頁訪問量校套、月平平粉絲數(shù)加權和作為作者流行度評價指標。
通過對多個因子進行組合和篩選牧抵,可以看到部分因子和作者權重有較好的一致性笛匙。
作者權重score分布及分級:
作品權重及排序
我們根據(jù)works.csv數(shù)據(jù),選取以作品認可度(avalue)、作品影響力(ivalue)犀变、作品流行度(hvalue)妹孙、作品內(nèi)容分數(shù)(cvalue)等為指標進行排序,其中:
(1)作品認可度:作品評分 * 認可率获枝,作品評分通過瀏覽量蠢正、收藏量進行均值計算,認可度通過瀏覽量省店、收藏量做權重占比分布計算嚣崭;
(2)作品影響力:以月評價文章瀏覽量笨触、收藏量為特征項,分別計算與行業(yè)同類別文章月平均值比率的加權和作為排序指標有鹿;
(3)作品流行度:以文章瀏覽量旭旭、收藏量和發(fā)布時間為特征項計算文章熱度值,作為文章受歡迎的評判指標葱跋;
(4)作品內(nèi)容分:作者權重 + 文持寄、圖質(zhì)量分數(shù) + 懲罰分數(shù);
因子篩選組合:
作品分級:
通過以上處理娱俺,我們可以初步拿到作者和作品的打分結果和排序結果稍味,并作為初步把關的標準之一。
#paperclub