許多專業(yè)人士的知識(shí)結(jié)構(gòu)特點(diǎn)都是:在太少的地方知道的太多。
我們總是希望他們能講點(diǎn)什么铲觉,但很遺憾的是或颊,許多專業(yè)人士已經(jīng)逐漸喪失了和大眾對(duì)話的能力,他們一開(kāi)口谊路,講的東西大多人都很難輕易聽(tīng)懂。
在職場(chǎng)菩彬,分工的邊界開(kāi)始變得模糊缠劝,大多人需要的是對(duì)許多方面都有一定的了解,但又不需要特別精通骗灶,從而能和其他人有更流暢的合作惨恭,對(duì)項(xiàng)目有更宏觀的理解,對(duì)非專業(yè)的知識(shí)也能有框架性的認(rèn)識(shí)耙旦。
所以本文梳理了內(nèi)容推薦算法的基礎(chǔ)邏輯脱羡,沒(méi)有任何公式和算法程序,10分鐘就可以對(duì)內(nèi)容推薦的方方面面有整體的理解免都。
為了讓文章盡可能簡(jiǎn)化锉罐,所有不必要的內(nèi)容都沒(méi)有在文中寫(xiě)出,但羅列了許多參考文章绕娘,可以進(jìn)一步擴(kuò)展閱讀脓规。各位在人人都是產(chǎn)品經(jīng)理、鳥(niǎo)哥筆記险领、搜狗微信搜索等網(wǎng)站檢索侨舆,就可以輕易得到文章。
絕大多數(shù)已知的事情在邏輯上都是非常簡(jiǎn)單的绢陌,難的地方在于細(xì)節(jié)的處理挨下、技術(shù)的實(shí)現(xiàn)。但在“認(rèn)識(shí)”這個(gè)階段脐湾,對(duì)邏輯的理解非常重要臭笆,所以這是一個(gè)既重要又簡(jiǎn)單的部分。
在“實(shí)踐”階段則要復(fù)雜的多秤掌,需要我們自己在做的過(guò)程中反復(fù)琢磨耗啦,找到真正適合自己的方案。?
全文分為6個(gè)基礎(chǔ)邏輯机杜。
傳統(tǒng)內(nèi)容獲取方式
#在個(gè)性化推薦技術(shù)大規(guī)模應(yīng)用以前帜讲,人們?cè)诰€獲取信息的方式主要依靠搜索引擎、瀏覽站點(diǎn)首頁(yè)兩種方式椒拗。
#使用搜索引擎的場(chǎng)景下似将,用戶的需求主動(dòng)而明確获黔,可以通過(guò)關(guān)鍵詞獲取精準(zhǔn)的信息。
#瀏覽站點(diǎn)首頁(yè)的場(chǎng)景下在验,用戶的需求主動(dòng)而模糊玷氏,可以獲得平臺(tái)推薦給你的信息,這種推薦對(duì)所有用戶一般是無(wú)差別的腋舌,比如各大站點(diǎn)首頁(yè)的輪播圖盏触、專欄、熱榜等块饺。相關(guān)的技術(shù)是“熱點(diǎn)算法”赞辩。
#最近幾年開(kāi)始流行的個(gè)性化推薦提供足夠定制化的信息,每個(gè)人都是獨(dú)一無(wú)二的個(gè)體授艰,極為個(gè)性化的偏好都能得到滿足辨嗽。
「擴(kuò)展閱讀」
#互聯(lián)網(wǎng)時(shí)代最主要的三種獲取信息方式-文章-米可-人人都是產(chǎn)品經(jīng)理
#淺談互聯(lián)網(wǎng)信息獲取方式的演變以及對(duì)SEO的影響-文章-SEO技術(shù)流-微信公眾號(hào)
內(nèi)容分發(fā)方式
#內(nèi)容分發(fā)是從平臺(tái)的角度來(lái)說(shuō)的,可以分為訂閱分發(fā)淮腾、編輯分發(fā)糟需、社交分發(fā)、推薦分發(fā)谷朝。
#微信公眾號(hào)的基本的邏輯是訂閱分發(fā)洲押,網(wǎng)易首頁(yè)的輪播圖和欄目是編輯分發(fā),微信「看一看」中的“朋友在看”屬于社交分發(fā)圆凰,今日頭條APP首頁(yè)的“推薦”欄目更多屬于推薦分發(fā)诅诱。
#許多產(chǎn)品都會(huì)把三種方式結(jié)合使用,比如知乎首頁(yè)就有「推薦」送朱、「關(guān)注」和「熱榜」娘荡,甚至有的平臺(tái)會(huì)把這三類都整合在一個(gè)信息流中。
「擴(kuò)展閱讀」
#聊一聊信息分發(fā)的嬗變史-文章-善寶橘-人人都是產(chǎn)品經(jīng)理
#互聯(lián)網(wǎng)信息分發(fā)簡(jiǎn)明史-文章-金葉宸-人人都是產(chǎn)品經(jīng)理
#知乎的內(nèi)容分發(fā)策略及運(yùn)行機(jī)制是怎樣的驶沼?-文章-Lcarusd-人人都是產(chǎn)品經(jīng)理
#內(nèi)容分發(fā)三分天下炮沐?編輯、算法與社交-文章-Ella-人人都是產(chǎn)品經(jīng)理
搜索引擎&推薦系統(tǒng)
#搜索引擎和推薦系統(tǒng)是人們獲取信息最主要的兩種方式回怜,它們之間關(guān)系密切大年。
#前面已經(jīng)說(shuō)過(guò),使用搜索引擎獲取信息時(shí)玉雾,用戶的需求主動(dòng)而明確翔试,而使用推薦系統(tǒng)的用戶,需求往往被動(dòng)而模糊复旬。
#搜索引擎的結(jié)果對(duì)不同特征的人可以有一定的不同垦缅,但很難做到個(gè)性化,推薦引擎則可以做到千人千面驹碍,滿足每個(gè)用戶的個(gè)性化需求壁涎。
#從給用戶呈現(xiàn)的內(nèi)容來(lái)看凡恍,可以把搜索引擎看作推薦引擎的某種簡(jiǎn)化,如果一個(gè)用戶只對(duì)一個(gè)關(guān)鍵詞感興趣怔球,那么推薦引擎的結(jié)果就近似于搜索引擎的結(jié)果嚼酝。
「擴(kuò)展閱讀」
#推薦系統(tǒng)和搜索引擎的關(guān)系是什么?-文章-陳運(yùn)文-人人都是產(chǎn)品經(jīng)理
#內(nèi)容算法:第一章:走近內(nèi)容推薦:推薦系統(tǒng)架構(gòu)初探-圖書(shū)-閆澤華-實(shí)體書(shū)
#一文解讀垂直搜索引擎和個(gè)性化推薦的應(yīng)用邏輯-文章-Sarah-人人都是產(chǎn)品經(jīng)理
推薦系統(tǒng)&用戶畫(huà)像
#內(nèi)容推薦竟坛,就是把合適的內(nèi)容推薦給需要的用戶闽巩,推薦系統(tǒng)需要搞定三個(gè)大的模塊:用戶、內(nèi)容担汤、算法涎跨。而用戶畫(huà)像屬于用戶模塊,是推薦系統(tǒng)的重要組成部分漫试。
#雖然用戶畫(huà)像還有產(chǎn)品或行業(yè)研究等使用場(chǎng)景,但相對(duì)次要碘赖,在討論推薦問(wèn)題的場(chǎng)景下驾荣,可以直接把用戶畫(huà)像看作推薦系統(tǒng)的組成部分。
#用戶的每一次操作都有兩種意義普泡。一是對(duì)內(nèi)容進(jìn)行「群體評(píng)估」播掷,用自己的行為決定某篇內(nèi)容的好壞,二是「個(gè)體進(jìn)化」的意義撼班,通過(guò)自身的每一次選擇與反饋歧匈,持續(xù)地改進(jìn)自身的用戶畫(huà)像。
#用戶畫(huà)像就像為每個(gè)人構(gòu)建一個(gè)數(shù)字軀體砰嘁,用戶畫(huà)像越完善件炉,推薦系統(tǒng)獲得的語(yǔ)義就越豐富,推薦給用戶的內(nèi)容就越精準(zhǔn)矮湘,用戶就可以獲得更好的體驗(yàn)斟冕。
「擴(kuò)展閱讀」
#一文讀懂推薦系統(tǒng)用戶畫(huà)像-文章-菠蘿王子-人人都是產(chǎn)品經(jīng)理
#實(shí)例解析:生活中的用戶畫(huà)像-文章-接地氣的陳老師-人人都是產(chǎn)品經(jīng)理
斷物&識(shí)人
斷物和識(shí)人,一個(gè)關(guān)注內(nèi)容缅阳,一個(gè)關(guān)注用戶磕蛇,簡(jiǎn)單來(lái)說(shuō)都是“貼標(biāo)簽”。標(biāo)簽是我們對(duì)多維事物的降維理解十办,抽象出事物更具有表意性秀撇、更為顯著的特點(diǎn)。
#「斷物」有三種方式:分類向族、標(biāo)簽呵燕、聚類。
#「分類」是樹(shù)狀的件相,是自上而下依次劃分的虏等。在分類體系里弄唧,每個(gè)節(jié)點(diǎn)都有嚴(yán)格的父類繼承關(guān)系,在兄弟節(jié)點(diǎn)層都具有可以被完全枚舉的屬性值霍衫。
#應(yīng)用分類時(shí)必須考慮分類權(quán)威性和信息完備性問(wèn)題候引,避免因?yàn)樽庸?jié)點(diǎn)覆蓋不全或分類錯(cuò)誤導(dǎo)致的認(rèn)知問(wèn)題。
#知乎的「話題樹(shù)」就是一個(gè)典型的分類體系敦跌。
#「標(biāo)簽」是網(wǎng)狀的澄干,更強(qiáng)調(diào)表達(dá)屬性關(guān)系而非繼承關(guān)系,只有權(quán)重大小之分柠傍,不強(qiáng)調(diào)包含與被包含關(guān)系麸俘。這就使得相對(duì)于分類而言,標(biāo)簽的靈活性更強(qiáng)惧笛。
#在權(quán)威性方面从媚,標(biāo)簽是較弱的,每個(gè)用戶都可以參與進(jìn)來(lái)患整,基于自己的偏好貼標(biāo)簽拜效,可以借助規(guī)模效應(yīng)實(shí)現(xiàn)對(duì)信息表意完備性的覆蓋。
#豆瓣圖書(shū)的關(guān)鍵詞各谚,就是一個(gè)典型的標(biāo)簽系統(tǒng)紧憾。
#「聚類」可以用來(lái)應(yīng)對(duì)難以用標(biāo)簽準(zhǔn)確描述的東西,比如說(shuō)一個(gè)人長(zhǎng)得漂亮昌渤,是由一系列復(fù)雜而模糊的綜合特征來(lái)決定的赴穗。
#聚類并不是以標(biāo)簽詞的方式來(lái)定義事物是怎樣的,而是基于某一維度的特征將相關(guān)物品組成一個(gè)集合膀息,并告訴你這個(gè)新的物品同哪個(gè)集合相似般眉。這種分類算法相對(duì)并不直觀,對(duì)普通用戶來(lái)說(shuō)一般處于黑盒狀態(tài)潜支。
#抖音可能會(huì)給你推薦「愛(ài)跳舞的小姐姐」煤篙、也可能會(huì)給你推薦「美食做法」,其中的算法就包含對(duì)短視頻的聚類毁腿。
#「識(shí)人」可以更加簡(jiǎn)單地理解為給用戶“貼標(biāo)簽”辑奈,來(lái)描述用戶的特征,也就是用戶畫(huà)像已烤。
#用戶畫(huà)像數(shù)據(jù)分為靜態(tài)和動(dòng)態(tài)兩類鸠窗。
#「靜態(tài)用戶畫(huà)像數(shù)據(jù)」是獨(dú)立于產(chǎn)品場(chǎng)景之外的屬性,比如性別胯究、學(xué)歷稍计、年齡等。
#「動(dòng)態(tài)用戶畫(huà)像數(shù)據(jù)」裕循,包括用戶在產(chǎn)品場(chǎng)景中所產(chǎn)生的的顯式和隱式行為臣嚣。
#顯式行為包括對(duì)內(nèi)容的點(diǎn)贊净刮、評(píng)論、分享硅则、對(duì)作者關(guān)注等淹父。
#隱式行為包括在頁(yè)面的停留時(shí)間、用戶操作軌跡等怎虫。
#通常顯式行為的權(quán)重更高暑认,但由于顯式行為更稀疏,所以需要隱式行為來(lái)補(bǔ)充驗(yàn)證大审。?
「擴(kuò)展閱讀」
#內(nèi)容算法:第二章:推薦的起點(diǎn):斷物識(shí)人-圖書(shū)-閆澤華-實(shí)體書(shū)
#如何構(gòu)建用戶標(biāo)簽體系蘸际?-文章-日久情疏-人人都是產(chǎn)品經(jīng)理
#用戶標(biāo)簽實(shí)踐:如何建立標(biāo)簽體系實(shí)現(xiàn)精準(zhǔn)營(yíng)銷?-文章-lei-人人都是產(chǎn)品經(jīng)理
#什么是用戶畫(huà)像和標(biāo)簽徒扶?-文章-Pinko-人人都是產(chǎn)品經(jīng)理
基于內(nèi)容的推薦&基于用戶的推薦
基于內(nèi)容的推薦指的是「相似性推薦」粮彤。
#「相似性推薦」算法中的相似性通過(guò)內(nèi)容的標(biāo)簽重合度來(lái)體現(xiàn)。
#在眾多圖書(shū)中姜骡,兩本書(shū)的標(biāo)簽重合度較高导坟,如果用戶選擇了其中一本,系統(tǒng)就應(yīng)當(dāng)優(yōu)先推薦給這位用戶另一本溶浴。
#上圖中乍迄,《運(yùn)營(yíng)之光》和《從零開(kāi)始做運(yùn)營(yíng)》的標(biāo)簽重合度更高管引,可以給買其中一本的用戶推薦另一本士败,而不是推薦《內(nèi)容算法》。
#考慮到不同標(biāo)簽的區(qū)分度不同褥伴,可以進(jìn)一步細(xì)化谅将,引入TF-IDF方式給不同的標(biāo)簽設(shè)定權(quán)重。
#TF-IDF的邏輯很簡(jiǎn)單重慢,出現(xiàn)頻率越高的標(biāo)簽區(qū)分度越低饥臂,給的權(quán)重也應(yīng)該越低。
#這種基于內(nèi)容屬性的推薦似踱,好處是只依賴物品本身的特征而不依賴用戶的行為隅熙,讓新的物品和冷僻的物品都能得到展示。但也有一些問(wèn)題核芽。
#第一個(gè)問(wèn)題囚戚,推薦質(zhì)量的優(yōu)劣完全取決于特征構(gòu)建的完備性,但這是一項(xiàng)困難的系統(tǒng)工程轧简。
#第二個(gè)問(wèn)題驰坊,單純的內(nèi)容屬性推薦沒(méi)有考慮到用戶對(duì)物品的態(tài)度,用戶的品味和調(diào)性很難得到詮釋和表達(dá)哮独。
#「相似性推薦」理解起來(lái)比較直觀拳芙,但因?yàn)樗嬖诘膯?wèn)題在海量?jī)?nèi)容平臺(tái)上非常嚴(yán)重察藐,所以下面一種方式才是目前應(yīng)用范圍較廣的推薦方法。?
基于用戶的推薦指的是「協(xié)同過(guò)濾」舟扎。?
#「基于用戶行為的協(xié)同過(guò)濾」引入了用戶的消費(fèi)行為特征分飞,以此來(lái)計(jì)算用戶相似性和物品相似性。
#協(xié)同推薦分為三個(gè)子類:基于物品的協(xié)同浆竭、基于用戶的協(xié)同浸须、基于模型的協(xié)同。
#「基于用戶的協(xié)同」就是找到和你口味相似的人群邦泄,并把他們喜歡的新東西推薦給你删窒。
#上圖中,用戶1和3都喜歡內(nèi)容A和C顺囊,判斷這兩個(gè)用戶偏好相似肌索,當(dāng)用戶3閱讀內(nèi)容D時(shí),同樣把內(nèi)容D推薦給相似的用戶1特碳。
#「基于物品的協(xié)同」诚亚,如果很多用戶都閱讀了同樣的兩個(gè)內(nèi)容,系統(tǒng)就認(rèn)為這兩個(gè)內(nèi)容相似午乓。一個(gè)新的用戶閱讀其中一個(gè)站宗,系統(tǒng)就會(huì)把另一個(gè)推薦給這位用戶。
#上圖中益愈,內(nèi)容A和C都被用戶2和3喜歡梢灭,系統(tǒng)判斷這兩個(gè)內(nèi)容相似,所以當(dāng)一個(gè)新的用戶1喜歡A后蒸其,也應(yīng)該把相似的內(nèi)容C推薦給用戶1敏释。
#「基于模型的協(xié)同」是用用戶的喜好信息來(lái)訓(xùn)練算法模型,實(shí)時(shí)預(yù)測(cè)用戶可能的點(diǎn)擊率摸袁,是深度學(xué)習(xí)技術(shù)的應(yīng)用钥顽。
#基于用戶行為的協(xié)同過(guò)濾,特點(diǎn)是我們不需要對(duì)物品或信息進(jìn)行完整的標(biāo)簽化分析和建模靠汁,實(shí)現(xiàn)了領(lǐng)域無(wú)關(guān)蜂大,因此應(yīng)用廣泛。
「擴(kuò)展閱讀」
#內(nèi)容算法:第三章:推薦算法:物以類聚蝶怔,人以群分-圖書(shū)-閆澤華-實(shí)體書(shū)
#分析:基于文本內(nèi)容推薦和協(xié)同過(guò)濾推薦-文章-SincerityY-人人都是產(chǎn)品經(jīng)理
#推薦策略產(chǎn)品經(jīng)理:什么是協(xié)同過(guò)濾推薦算法奶浦?-文章-鳳城狂客-人人都是產(chǎn)品經(jīng)理#
#協(xié)同過(guò)濾算法:在抖音狂給1000個(gè)小姐姐點(diǎn)贊的事被老婆發(fā)現(xiàn)了!-文章-菠蘿王子-人人都是產(chǎn)品經(jīng)理?
設(shè)計(jì)一款推薦系統(tǒng)添谊,除了整體邏輯和具體算法财喳,期間還會(huì)遇到各種各樣需要考慮的問(wèn)題,比如去重問(wèn)題、權(quán)重問(wèn)題耳高、推薦密度問(wèn)題扎瓶、易反感內(nèi)容處理、時(shí)空限定類內(nèi)容處理泌枪、反作弊概荷、偶然和極端情況等等,都需要我們逐步考慮進(jìn)來(lái)碌燕。
另外误证,理解整體邏輯后,我們還需要知道修壕,推薦算法是有很多不同的典型使用場(chǎng)景的愈捅。比如基于用戶消費(fèi)歷史的商品推薦、視頻播放結(jié)束后繼續(xù)觀看的場(chǎng)景慈鸠、搜索的場(chǎng)景蓝谨、時(shí)下流行內(nèi)容的推薦、熱榜推薦的熱度算法等等青团,每一類場(chǎng)景都能找到典型的產(chǎn)品譬巫,但一定要根據(jù)分類找到更有參考價(jià)值的案例,以免邏輯混亂督笆。
以上內(nèi)容芦昔,寫(xiě)給那些對(duì)內(nèi)容推薦非常陌生的產(chǎn)品和運(yùn)營(yíng)人員,可以作為入門理解的首選文章娃肿。當(dāng)然咕缎,一個(gè)成熟的推薦系統(tǒng)從設(shè)計(jì)到落地要復(fù)雜得多,每一個(gè)不同的細(xì)節(jié)問(wèn)題咸作、每一個(gè)使用場(chǎng)景都有相關(guān)的文章或圖書(shū)锨阿,可以進(jìn)一步檢索學(xué)習(xí)宵睦。