搜索算法之內(nèi)容質(zhì)量評估:如何對作者和文章進行質(zhì)量評價

對于搜索引擎而言,用戶算法的核心價值是用戶體驗至会,包括搜索內(nèi)容的相關性、內(nèi)容質(zhì)量及時效性等谱俭,其中內(nèi)容質(zhì)量是前置步驟奉件,既可以用于優(yōu)質(zhì)內(nèi)容源篩選,又可以作為搜索召回結果排序因素昆著,是決定高質(zhì)量搜索結果前提县貌。


內(nèi)容質(zhì)量主要有兩個維度。第一凑懂,EAT 分數(shù)煤痕,主要取決于文檔的來源和作者。EAT是專業(yè)性(expertise)征候、權威性(authoritativeness)杭攻、可信賴(trustworthiness)三個詞的首字母縮寫;第二疤坝,文字和圖片質(zhì)量兆解,包括文本質(zhì)量和圖片質(zhì)量(參考:https://toutiao.io/posts/izme1z1/preview,https://cloud.tencent.com/developer/news/490036)等跑揉。

爬蟲采集到了作者編號(account_id)锅睛,作者昵稱(master_name),作者領域(master_property)历谍,文章編號(pid),文章內(nèi)容(doc)现拒,文章類目(category)英遭,文章發(fā)布時間(publish_time)双肤,瀏覽量(view_num)飘言,收藏量(collect_num)钧嘶,一共12w行。通過 作者編號(account_id)露乏,作者昵稱(master_name)傀蓉,作者領域(master_property)撩幽,通過作者發(fā)文時間等字段,及計算作者創(chuàng)作年齡(span_date)匯總為author.csv數(shù)據(jù)退唠,通過編號(account_id)鹃锈,作者昵稱(master_name)文章編號(pid),文章內(nèi)容(doc),文章類目(category)瞧预,文章發(fā)布時間(publish_time)屎债,瀏覽量(view_num),收藏量(collect_num)匯總為works.csv數(shù)據(jù)垢油。

作者權重及排序

我們希望通過對作者進行打分盆驹,獲得‘’大師、專家‘’列表滩愁,用于在文章權威性評價指標召娜。由于是初始階段我們無法獲得大師名單列表,甚至作者名單都不全惊楼,因此需要先對爬蟲數(shù)據(jù)結構有一定了解。

我們根據(jù)auther.csv數(shù)據(jù)秸讹,將作者排序因素分類為作者影響力水平(eindex)檀咙、作者領域專業(yè)度(pindex)、作者流行性度(h index)等璃诀,其中:

(1)作者影響力水平評價:以作者作品瀏覽量和收藏數(shù)的H Index加權和作為影響力排序指標弧可;

(2)作者領域專業(yè)度評價:分別計算作者行業(yè)作品瀏覽率與行業(yè)平均瀏覽率占比和作者行業(yè)作品收藏率與行業(yè)平均收藏率占比,然后求兩項加權和作為評判作者在行業(yè)領域內(nèi)的專業(yè)度劣欢;

(3)作者流行性度:以作者月平均產(chǎn)出作品數(shù)棕诵、月平均作品瀏覽量、月平均作品收藏量凿将、月平均主頁訪問量校套、月平平粉絲數(shù)加權和作為作者流行度評價指標。

通過對多個因子進行組合和篩選牧抵,可以看到部分因子和作者權重有較好的一致性笛匙。


作者權重score分布及分級:


作品權重及排序

我們根據(jù)works.csv數(shù)據(jù),選取以作品認可度(avalue)、作品影響力(ivalue)犀变、作品流行度(hvalue)妹孙、作品內(nèi)容分數(shù)(cvalue)等為指標進行排序,其中:

(1)作品認可度:作品評分 * 認可率获枝,作品評分通過瀏覽量蠢正、收藏量進行均值計算,認可度通過瀏覽量省店、收藏量做權重占比分布計算嚣崭;

(2)作品影響力:以月評價文章瀏覽量笨触、收藏量為特征項,分別計算與行業(yè)同類別文章月平均值比率的加權和作為排序指標有鹿;

(3)作品流行度:以文章瀏覽量旭旭、收藏量和發(fā)布時間為特征項計算文章熱度值,作為文章受歡迎的評判指標葱跋;

(4)作品內(nèi)容分:作者權重 + 文持寄、圖質(zhì)量分數(shù) + 懲罰分數(shù);

因子篩選組合:


作品分級:


通過以上處理娱俺,我們可以初步拿到作者和作品的打分結果和排序結果稍味,并作為初步把關的標準之一。

#paperclub

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末荠卷,一起剝皮案震驚了整個濱河市模庐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌油宜,老刑警劉巖掂碱,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異慎冤,居然都是意外死亡疼燥,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門蚁堤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來醉者,“玉大人,你說我怎么就攤上這事披诗∏思矗” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵呈队,是天一觀的道長剥槐。 經(jīng)常有香客問我,道長掂咒,這世上最難降的妖魔是什么才沧? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮绍刮,結果婚禮上温圆,老公的妹妹穿的比我還像新娘。我一直安慰自己孩革,他們只是感情好岁歉,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般锅移。 火紅的嫁衣襯著肌膚如雪熔掺。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天非剃,我揣著相機與錄音置逻,去河邊找鬼。 笑死备绽,一個胖子當著我的面吹牛券坞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播肺素,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼恨锚,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了倍靡?” 一聲冷哼從身側響起猴伶,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎塌西,沒想到半個月后他挎,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡捡需,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年雇盖,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片栖忠。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖贸街,靈堂內(nèi)的尸體忽然破棺而出庵寞,到底是詐尸還是另有隱情,我是刑警寧澤薛匪,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布捐川,位于F島的核電站,受9級特大地震影響逸尖,放射性物質(zhì)發(fā)生泄漏古沥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一娇跟、第九天 我趴在偏房一處隱蔽的房頂上張望岩齿。 院中可真熱鬧,春花似錦苞俘、人聲如沸盹沈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽乞封。三九已至做裙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間肃晚,已是汗流浹背锚贱。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留关串,地道東北人拧廊。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像悍缠,于是被迫代替她去往敵國和親卦绣。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容