這是個性化推薦系統(tǒng)系列的最后一篇抓半,該系列將完結(jié)喂急;后續(xù)將開始研究信息架構(gòu)模塊的內(nèi)容;
1)笛求、個性化推薦系列之初步認(rèn)識推薦系統(tǒng);2)、個性化推薦系列之初步認(rèn)識機(jī)器學(xué)習(xí)探入;3)狡孔、個性化推薦系列之推薦系統(tǒng)的演化及常見推薦算法;4)蜂嗽、個性化推薦系列之協(xié)同過濾推薦算法總結(jié)苗膝;5)、個性化推薦系列之推薦系統(tǒng)實(shí)踐植旧;詳見知乎專欄--產(chǎn)品打雜https://zhuanlan.zhihu.com/zhoulink
--------------------------------------------------------------------------------------------------------------------------------------------------------------
我們前面說過辱揭,推薦系統(tǒng)是一個通過推薦算法來解決互聯(lián)網(wǎng)時代信息過載問題,以幫助用戶快速獲取信息并使用消費(fèi)的系統(tǒng)病附;
那么推薦系統(tǒng)怎么解決信息過載問題问窃,我們前面幾個部分做過一些總結(jié),可以通過協(xié)同過濾推薦算法完沪,將不同屬性的用戶和不同屬性的物品域庇,基于不同屬性的特征進(jìn)行匹配;
協(xié)同過濾作為推薦算法中最經(jīng)典的類型覆积,包括在線協(xié)同和離線過濾兩部分听皿;
所謂在線協(xié)同,就是通過在線數(shù)據(jù)找到用戶可能喜歡的物品宽档;而離線過濾尉姨,則是過濾掉一些不值得推薦的數(shù)據(jù),比比如推薦值評分低的數(shù)據(jù)吗冤,或者雖然推薦值高但是用戶已經(jīng)購買的數(shù)據(jù)又厉;
那么一個推薦系統(tǒng)到底包含哪些部分,到底是怎么工作的呢欣孤;
一套完整的推薦系統(tǒng)框架包括三個部分:
1)馋没、數(shù)據(jù)層(數(shù)據(jù)生產(chǎn)、數(shù)據(jù)存儲)降传;2)篷朵、候選集層;3)婆排、規(guī)則過濾排序?qū)樱ㄈ诤咸幚砩⒅嘏判蛘故荆?/p>
整體下來,一套完整的推薦系統(tǒng)包含以下五層段只;
1)腮猖、數(shù)據(jù)生產(chǎn)層;主要是利用各種數(shù)據(jù)處理工具(ETL赞枕、spark等)獲取系統(tǒng)用戶日志數(shù)據(jù)澈缺,并對用戶日志數(shù)據(jù)進(jìn)行清洗坪创,通過系統(tǒng)化處理方式對數(shù)據(jù)進(jìn)行轉(zhuǎn)換整理,處理成格式化的數(shù)據(jù)姐赡;
2)莱预、數(shù)據(jù)存儲層;將日志數(shù)據(jù)庫中經(jīng)過格式化處理并清洗的數(shù)據(jù)存儲到各自不同所屬類型的數(shù)據(jù)存儲系統(tǒng)中项滑,例如索引數(shù)據(jù)存儲在索引系統(tǒng)中依沮、結(jié)構(gòu)化日志數(shù)據(jù)存儲在日志系統(tǒng)中、場景數(shù)據(jù)存儲在場景系統(tǒng)中枪狂,通過將數(shù)據(jù)分布式歸集存儲危喉,以供下一層的算法和模型使用;
3)州疾、候選集層辜限;候選集層是基于用戶的歷史行為數(shù)據(jù)、實(shí)時行為數(shù)據(jù)孝治、地理位置數(shù)據(jù)等角度利用各種觸發(fā)策略產(chǎn)生推薦的候選集數(shù)據(jù)列粪,這部分?jǐn)?shù)據(jù)即為經(jīng)過推薦算法(協(xié)同過濾等)的某個引擎計算出來符合目標(biāo)用戶推薦的內(nèi)容集合;
4)谈飒、融合過濾層岂座;將候選集層通過用戶實(shí)時、歷史數(shù)據(jù)經(jīng)過推薦算法計算出來的候選內(nèi)容進(jìn)行高度融合操作杭措,對推薦內(nèi)容進(jìn)行處理费什,提高推薦策略的覆蓋度和精度;同時手素,該部分還要對這部分產(chǎn)生的內(nèi)容進(jìn)行高度解耦過濾鸳址,通過運(yùn)營手段、人工規(guī)則泉懦,將不符合條件的內(nèi)容過濾處理稿黍;
5)、重排序?qū)颖懒ǎ焕脵C(jī)器學(xué)習(xí)的模型對候選集層篩選出來的候選集內(nèi)容進(jìn)行重排序巡球,展示給前端用戶;
到這里邓嘹,我們基本了解一個推薦系統(tǒng)是怎么工作的了酣栈;那么什么才是好的推薦系統(tǒng);
一個完整的推薦系統(tǒng)一般存在三個參與方:1)汹押、用戶矿筝;2)、物品提供者棚贾;3)窖维、推薦系統(tǒng)所屬網(wǎng)站榆综;
這里為了簡潔明了說清楚問題,我們以圖書推薦為例陈辱;
1)奖年、首先推薦系統(tǒng)要滿足用戶的需求细诸,即給用戶推薦那些令他們感興趣的書籍沛贪;
2)、然后推薦系統(tǒng)要讓每個出版社的圖書都能夠被系統(tǒng)腿講給其感興趣用戶震贵,而不是只推薦某幾個大型出版社的書利赋;
3)、最后好的推薦系統(tǒng)設(shè)計猩系,能夠讓推薦系統(tǒng)本身收集到高質(zhì)量用戶的反饋媚送,不斷完善推薦的之類,增加用戶和網(wǎng)站的交互寇甸,提高網(wǎng)站的收入塘偎;
因?yàn)樵谠u測一個推薦算法時,需要同時考慮三方的利益拿霉,一個好的推薦系統(tǒng)是能夠讓參與的三方共贏的系統(tǒng)吟秩;