淺淺談搜索與推薦引擎

非專業(yè)人士漫談箍土,歡迎debug,多交流罐监。

最近在查看相關閱讀吴藻,覺得搜索和推薦環(huán)繞在我們身邊的點點滴滴,很多相關內容很值得跟大家分享弓柱。

淺談搜索&推薦沟堡。本次從搜索推薦的區(qū)別開始,然后介紹搜索和推薦的特性矢空,以及搜索和推薦的流程是什么航罗,最后介紹衡量兩者結果好壞的指標,總結一下我們可能更關注的非技術部分屁药。

搜索&推薦的區(qū)別

主動或被動:搜索引擎和推薦系統(tǒng)的選擇粥血。

搜索和推薦都是獲取信息的方式,搜索是一個非常主動的行為酿箭,用戶需求相對比較明確复亏,輸入你想要找的內容(在搜索框內輸入搜索詞,俗稱query)缭嫡,搜索引擎快速給你最好的結果缔御。而推薦系統(tǒng),很類似你跟朋友的閑聊妇蛀,有什么好吃的館子嗎耕突?推薦系統(tǒng)快速給你推薦你想要的信息。

論兩者區(qū)別的話讥耗,搜索是一個非常主動的行為且用戶需求十分明確有勾。而推薦系統(tǒng)的信息是相對被動的,且需求會更為模糊且不明確古程,且推薦有更強的個性化特點蔼卡,基于用戶本身屬性來說。

但是其實兩者之間的界限并不是那么的明顯挣磨,大多數(shù)的用戶搜索的時候并不會用很精準的言辭來表達自己的需求雇逞,文字又同時本身具備多種含義,因此像百度茁裙,谷歌之類的軟中塘砸,搜索件往往會與推薦結合起來,或者結合用戶過往的經歷來揣測使用搜索行為的具體目的晤锥。

更詳細可見網(wǎng)址:https://blog.csdn.net/cserchen/article/details/50422553

搜索&推薦的特性

搜索引擎是具備極強的馬太效應的掉蔬。絕大多數(shù)的用戶點擊都集中在頂部的少量結果上廊宪。?

而如同眾所周知的亞馬遜長尾效應,通過對相似用戶進行興趣充分的挖掘女轿,從而給相似用戶推薦用戶所偏好箭启。因為長尾可能對于用戶是陌生的,很難出現(xiàn)在搜索詞的范圍內蛉迹。結合個性化推薦傅寡,可能幫助長尾這批找到合適自己的用戶。當然這個也得建立在技術強和數(shù)據(jù)充足的前提北救,例如亞馬遜技術是出了名的強荐操。


搜索的流程

搜索的流程用google的搜索為例

1.在互聯(lián)中發(fā)現(xiàn)、搜集網(wǎng)頁信息珍策;

2.對信息進行提取和組織建立索引庫托启;

3.再由檢索器根據(jù)用戶輸入的查詢關字,在索引庫中快速檢出文檔膛壹,進行文檔與查詢的相關度評價驾中,對將要輸出的結果進行排序,并將查詢結果返回給用戶模聋。(倒排索引是搜索引擎實現(xiàn)毫秒級別檢索非常關鍵的一個環(huán)節(jié))

為了更具象化得到現(xiàn)在互聯(lián)網(wǎng)企業(yè)如何做搜索肩民,分別問了百度和京東有過相關經驗的同學。

百度的同學說首先說到最初級的是文本關聯(lián)链方,然后就是語義識別持痰、相關性、權威性祟蚀、時效性工窍、個性化等多重考慮了。這個應該大多搜索都是這么做的前酿。(該同學補充道這個是11~14的發(fā)生的事情患雏,可能事情有所改變)

關于query具體是如何索引聯(lián)系起來,據(jù)京東的某位不愿意透露姓名的群眾說到罢维,是做的mapping的映射淹仑,可能是電商運營會更為簡單和場景更加固定,因此是簡單的文本匹配肺孵,其映射關系的索引庫是人工選定匀借。

推薦的系統(tǒng)

推薦這邊工作原理


推薦引擎所需要的數(shù)據(jù)源包括:

這里先將推薦引擎看作黑盒,它接受的輸入是推薦的數(shù)據(jù)源平窘。

要推薦物品或內容的元數(shù)據(jù)吓肋,例如關鍵字,基因描述等瑰艘;

系統(tǒng)用戶的基本信息是鬼,例如性別肤舞,年齡等 用戶對物品或者信息的偏好,根據(jù)應用本身的不同屑咳,可能包括用戶對物品的評分萨赁,用戶查看物品的記錄,用戶的購買記錄等兆龙。其實這些用戶的偏好信息可以分為兩類:

顯式的用戶反饋:這類是用戶在網(wǎng)站上自然瀏覽或者使用網(wǎng)站以外,顯式的提供反饋信息敲董,例如用戶對物品的評分紫皇,或者對物品的評論。

隱式的用戶反饋:這類是用戶在使用網(wǎng)站是產生的數(shù)據(jù)腋寨,隱式的反應了用戶對物品的喜好聪铺,例如用戶購買了某物品,用戶查看了某物品的信息等等萄窜。

顯式的用戶反饋能準確的反應用戶對物品的真實喜好铃剔,但需要用戶付出額外的代價,而隱式的用戶行為查刻,通過一些分析和處理键兜,也能反映用戶的喜好,只是數(shù)據(jù)不是很精確穗泵,有些行為的分析存在較大的噪音普气。但只要選擇正確的行為特征,隱式的用戶反饋也能得到很好的效果佃延,只是行為特征的選擇可能在不同的應用中有很大的不同现诀,例如在電子商務的網(wǎng)站上,購買行為其實就是一個能很好表現(xiàn)用戶喜好的隱式反饋履肃。

推薦方式模型的建立方式:

1.基于物品和用戶本身仔沿,,這種推薦引擎將每個用戶和每個物品都當作獨立的實體尺棋,預測每個用戶對于每個物品的喜好程度封锉,這些信息往往是用一個二維矩陣描述的。

2.基于關聯(lián)規(guī)則的推薦:關聯(lián)規(guī)則的挖掘已經是數(shù)據(jù)挖掘中的一個經典的問題陡鹃,主要是挖掘一些數(shù)據(jù)的依賴關系烘浦,典型的場景就是“購物籃問題”,通過關聯(lián)規(guī)則的挖掘萍鲸,我們可以找到哪些物品經常被同時購買闷叉,或者用戶購買了一些物品后通常會購買哪些其他的物品,當我們挖掘出這些關聯(lián)規(guī)則之后脊阴,我們可以基于這些規(guī)則給用戶進行推薦握侧。

3.基于模型的推薦:這是一個典型的機器學習的問題蚯瞧,可以將已有的用戶喜好信息作為訓練樣本,訓練出一個預測用戶喜好的模型品擎,這樣以后用戶在進入系統(tǒng)埋合,可以基于此模型計算推薦。這種方法的問題在于如何將用戶實時或者近期的喜好信息反饋給訓練好的模型萄传,從而提高推薦的準確度甚颂。

推薦引擎根據(jù)不同的推薦機制可能用到數(shù)據(jù)源中的一部分,然后根據(jù)這些數(shù)據(jù)秀菱,分析出一定的規(guī)則或者直接對用戶對其他物品的喜好進行預測計算振诬。這樣推薦引擎可以在用戶進入的時候給他推薦他可能感興趣的物品。

更詳細的信息見https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html

如何評價一個好的推薦&搜索

衡量推薦系統(tǒng)是否足夠好衍菱,往往要依據(jù)是否能夠讓用戶停留更多的時間赶么。對用戶興趣的挖掘越深入,越“懂”用戶脊串,那么推薦的成功率越高辫呻,用戶也越樂意留在產品里。

推薦系統(tǒng)常用十個評測指標

1 用戶滿意度 用戶作為推薦系統(tǒng)的重要參與者琼锋,其滿意度是評測推薦系統(tǒng)的最重要指標放闺。用戶滿意度沒有辦法通過離線計算,只能通過用戶調查(調查問卷)和在線實驗獲得(統(tǒng)計購買率斩例、點擊率雄人、用戶停留時間、轉化率等)念赶。

2 預測準確度 預測準確度度量一個推薦系統(tǒng)或者推薦算法預測用戶行為的能力础钠,主要通過離線計算獲得。根據(jù)推薦系統(tǒng)的研究方向叉谜,預測準確度指標主要分為評分預測和topN推薦旗吁。對于那些基于物品評分的網(wǎng)站(如電影評分),一般通過評分預測來度量推薦系統(tǒng)的預測準確度停局,具體計算方式有均方根誤差(RMSE)和平均絕對誤差(MAE)兩種很钓。對于那些需要提供給用戶一個個性化的推薦列表的推薦,一般通過準確率和召回率來衡量董栽。

3 覆蓋率 覆蓋率描述一個推薦系統(tǒng)對物品長尾的發(fā)掘能力码倦。覆蓋率有不同的定義方法,最簡單的定義為推薦系統(tǒng)能夠推薦出來的物品占總物品集合的比例。更為詳細的兩個指標是信息熵和基尼系數(shù)。

4 多樣性 多樣性描述了推薦列表中物品兩兩之間的不相似性欲虚。

5 新穎性 新穎的推薦是指給用戶推薦那些他們以前沒有聽說過的物品狮斗。在一個網(wǎng)站實現(xiàn)新穎性的最簡單辦法是推汽,把那些用戶之前在網(wǎng)站中對其有過行為的物品從推薦列表中過濾掉补疑。

6 驚喜度 驚喜度和新穎性的區(qū)別是,用戶對于推薦的未曾見過的物品感到滿意歹撒。

7 信任度 對于相同的推薦莲组,我們總是傾向于我們信任的那個人的建議。因此暖夭,一個好的推薦系統(tǒng)應該以讓用戶信任的方式推薦給用戶锹杈,這樣更能讓用戶產生購買欲。所以迈着,一般的推薦系統(tǒng)中在給出推薦物品的同時還會顯示推薦的理由嬉橙,這種做法就是為了增加用戶的信任度。

8 實時性 推薦系統(tǒng)的實時性包括兩個方面:一是推薦系統(tǒng)需要實時地更新推薦列表來滿足用戶新的行為變化寥假;二是推薦系統(tǒng)需要把新加入系統(tǒng)的物品推薦給用戶(物品冷啟動問題)。

9 健壯性 健壯性衡量一個推薦系統(tǒng)抗擊作弊的能力霞扬。在實際系統(tǒng)中糕韧,提高系統(tǒng)的健壯性,除了選擇健壯性高的算法喻圃,還有:設計推薦系統(tǒng)時盡量使用代價比較高的用戶行為萤彩;在使用數(shù)據(jù)前,進行攻擊檢測斧拍,從而對數(shù)據(jù)進行清洗雀扶。

10 商業(yè)目標 根據(jù)自己的盈利模式設計不同的商業(yè)目標。

更詳細內容:https://blog.csdn.net/jingyi130705008/article/details/80488054

搜索評估體系

而衡量搜索的優(yōu)缺點肆汹,可以參考google自己的搜索評估體系愚墓。

Google對某個關鍵字對網(wǎng)頁質量的評估分類:

Vital-關鍵: 這是網(wǎng)頁質量的最高標準。Vital的網(wǎng)頁通常是一個公司或者個人的正式網(wǎng)站昂勉。比如搜索“IBM”浪册,www.ibm.com就是 vital網(wǎng)頁。

Useful-有用: 這是第二高標準的網(wǎng)頁岗照。Useful的網(wǎng)頁指的是正確回答查詢問題的網(wǎng)頁村象。本人認為,這也是為什么wikipedia在許多搜索中攒至,總是排在很前的原因厚者。

Relevant-相關:這是中位的評分。Relevant給與那些提供部分相關信息迫吐,但信息不夠綜合全面库菲,也不是權威的網(wǎng)站的網(wǎng)頁。我覺得我的博客上的大多數(shù)網(wǎng)也屬于這個類別渠抹。

Not Relevant-非相關: 這是指那些網(wǎng)頁基本上沒有什么用蝙昙,但是與查詢的關鍵字還有一點聯(lián)系闪萄。比如網(wǎng)頁內容已經過時,只適合很小的一個地區(qū)等等奇颠。

Off-Topic-脫離主題: 這是指與搜索完全不相關的網(wǎng)頁败去。比如搜索”hot dog”, 結果卻是dog house烈拒。垃圾網(wǎng)頁分類(Spam Labels):

Not Spam(非垃圾網(wǎng)址):Not Spam標簽給與那些沒有采用欺騙性的網(wǎng)頁設計技術的網(wǎng)頁圆裕。

Maybe Spam(可能是垃圾網(wǎng)址):這個標簽給與那個網(wǎng)頁可能使Spammy,但不是100%確定的網(wǎng)頁荆几。

Spam(垃圾網(wǎng)址):這個標簽授予那些違反Google webmaster guidelines的網(wǎng)頁吓妆。

更詳細的信息見一下網(wǎng)址 Search Quality Rating Program?https://static.googleusercontent.com/media/www.google. com/de//insidesearch/howsearchworks/assets/searchqualityevaluatorguidelines.pdf

歡迎留言討論。

本文參考資源:?1.https://static.googleusercontent.com/media/www.google. com/de//insidesearch/howsearchworks/assets/searchqualityevaluatorguidelines.pdf2.https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html3.https://blog.csdn.net/cserchen/article/details/50422553?4.https://www.zhihu.com/question/211374525.https://zhuanlan.zhihu.com/p/30910760?*6.https://blog.csdn.net/jingyi130705008/article/details/80488054?*

擴展閱讀:?https://www.practicalecommerce.com/Amazon-Does-Not-Do-Long-tail-Why-Should-You?辯證看待長尾這個事情:Amazon Doesn’t Do Long-tail. Why Should You?


最后打一下我的公眾號(? ??_??)?吨铸。

希望我能夠更了解你行拢,你也更了解我

公眾號搜索: Machinator_chenchen,阿Bing有話說

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末诞吱,一起剝皮案震驚了整個濱河市舟奠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌房维,老刑警劉巖沼瘫,帶你破解...
    沈念sama閱讀 218,640評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異咙俩,居然都是意外死亡耿戚,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評論 3 395
  • 文/潘曉璐 我一進店門阿趁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來膜蛔,“玉大人,你說我怎么就攤上這事歌焦》杉福” “怎么了?”我有些...
    開封第一講書人閱讀 165,011評論 0 355
  • 文/不壞的土叔 我叫張陵独撇,是天一觀的道長屑墨。 經常有香客問我,道長纷铣,這世上最難降的妖魔是什么卵史? 我笑而不...
    開封第一講書人閱讀 58,755評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮搜立,結果婚禮上以躯,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好忧设,可當我...
    茶點故事閱讀 67,774評論 6 392
  • 文/花漫 我一把揭開白布刁标。 她就那樣靜靜地躺著,像睡著了一般址晕。 火紅的嫁衣襯著肌膚如雪膀懈。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,610評論 1 305
  • 那天谨垃,我揣著相機與錄音启搂,去河邊找鬼。 笑死刘陶,一個胖子當著我的面吹牛胳赌,可吹牛的內容都是我干的。 我是一名探鬼主播匙隔,決...
    沈念sama閱讀 40,352評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼疑苫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了纷责?” 一聲冷哼從身側響起缀匕,我...
    開封第一講書人閱讀 39,257評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎碰逸,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體阔加,經...
    沈念sama閱讀 45,717評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡饵史,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,894評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了胜榔。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胳喷。...
    茶點故事閱讀 40,021評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖夭织,靈堂內的尸體忽然破棺而出吭露,到底是詐尸還是另有隱情,我是刑警寧澤尊惰,帶...
    沈念sama閱讀 35,735評論 5 346
  • 正文 年R本政府宣布讲竿,位于F島的核電站,受9級特大地震影響弄屡,放射性物質發(fā)生泄漏题禀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,354評論 3 330
  • 文/蒙蒙 一膀捷、第九天 我趴在偏房一處隱蔽的房頂上張望迈嘹。 院中可真熱鬧,春花似錦、人聲如沸秀仲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,936評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽神僵。三九已至雁刷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間挑豌,已是汗流浹背安券。 一陣腳步聲響...
    開封第一講書人閱讀 33,054評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留氓英,地道東北人侯勉。 一個月前我還...
    沈念sama閱讀 48,224評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像铝阐,于是被迫代替她去往敵國和親址貌。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,974評論 2 355