本周任務(wù):
1.了解產(chǎn)品
2.構(gòu)建用戶畫像(個(gè)人偏好中的類別和標(biāo)簽還有國家爱沟、場景等自己想)
2.1用到的數(shù)據(jù)有:用戶數(shù)據(jù)和行為數(shù)據(jù)
3.社會(huì)畫像(即物品畫像郎笆、類別线罕、標(biāo)簽等盏档、網(wǎng)易根據(jù)協(xié)同過濾澈吨,即物品之間的相似性通過機(jī)器學(xué)習(xí)來貼標(biāo)簽)把敢。然后數(shù)據(jù)找碧波要。
在推薦系統(tǒng)中利用情境信息有多種方法谅辣,大致可以分為兩類:1.通過情境驅(qū)動(dòng)的查詢和搜索產(chǎn)生的推薦修赞,使用這種方法的系統(tǒng)通常使用的情境信息(可能式直接詢問并獲得用戶當(dāng)前的情緒或興趣,或從環(huán)境中獲得當(dāng)?shù)氐臅r(shí)間屈藐、天氣或地理位置)去查詢或搜索某些資料庫(如餐廳)榔组,同時(shí)給用戶提供匹配度最好的資源(如附近哪些餐館在營業(yè))。2.通過情境偏好提取和估計(jì)的推薦联逻,使用這種方法的技術(shù)試圖通過學(xué)習(xí)來對用戶的偏好建模搓扯。這可以通過觀察系統(tǒng)中用戶和其他用戶的交互行為,或通過獲取用戶對以前推薦的物品的偏好反饋包归。為了對用戶的情境敏感屬性建模并產(chǎn)生推薦锨推,這些技術(shù)會(huì)采用基于內(nèi)容的協(xié)同過濾,或者綜合各種情境感知的推薦方法公壤,或者引入數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的各種智能數(shù)據(jù)分析技術(shù)(如貝葉斯分類器和支持向量機(jī))换可。
一般來說,傳統(tǒng)的二維(用戶——物品)推薦系統(tǒng)可以描述為一個(gè)函數(shù)厦幅,它把用戶部分偏好數(shù)據(jù)作為其輸入沾鳄,產(chǎn)生的每個(gè)用戶的推薦列表作為輸出。
8.推薦系統(tǒng)的評估
起初确憨,大多數(shù)推薦系統(tǒng)基于準(zhǔn)確率(準(zhǔn)確預(yù)測用戶行為的能力)進(jìn)行評估和排名译荞。然而現(xiàn)在人們普遍認(rèn)為準(zhǔn)確率固然重要瓤的,但還不足夠部署一個(gè)好的推薦系統(tǒng)。在許多應(yīng)用中人們使用推薦系統(tǒng)不僅式為了預(yù)測用戶品味的準(zhǔn)確率吞歼。同時(shí)用戶可能對發(fā)現(xiàn)新物品圈膏、迅速發(fā)掘多樣性物品、隱私保護(hù)篙骡、系統(tǒng)響應(yīng)速度以及其他更多的推薦引擎的屬性感興趣稽坤。所以我們必須識(shí)別出在具體應(yīng)用上下文中哪些屬性會(huì)影響推薦系統(tǒng),然后才能評估系統(tǒng)在相關(guān)屬性上的運(yùn)行性能糯俗。
下面為推薦系統(tǒng)的評估過程尿褪,討論了三種不同類型的實(shí)驗(yàn):離線實(shí)驗(yàn)、用戶調(diào)查叶骨、在線實(shí)驗(yàn)
離線實(shí)驗(yàn)最簡單茫多,它是使用現(xiàn)有的數(shù)據(jù)和通過對用戶行為建模來評估推薦系統(tǒng)的性能,如預(yù)測準(zhǔn)確性忽刽。最后在已經(jīng)部署的系統(tǒng)上做大量的實(shí)驗(yàn)天揖,稱為在線實(shí)驗(yàn)。
離線實(shí)驗(yàn)的目的是過濾不恰當(dāng)?shù)姆椒ü虻郏瑸槌杀颈容^大的用戶調(diào)查和在線實(shí)驗(yàn)提供相對較小的算法候選集進(jìn)行測試今膊。
8.1得出可靠結(jié)論
8.1.2置信度和p值-因幸運(yùn)而獲得結(jié)果的概率。當(dāng)了解估算的可靠性時(shí)就用到了置信區(qū)間伞剑。
8.2推薦系統(tǒng)的屬性
在決定選擇哪種方法進(jìn)行推薦時(shí)這些屬性需要考慮斑唬。由于不同的應(yīng)用程序有不同的需要,系統(tǒng)設(shè)計(jì)者必須決定對手頭的具體應(yīng)用的哪些重要屬性進(jìn)行評測黎泣。一些屬性可能會(huì)被折衷恕刘。
1.構(gòu)建用戶畫像的步驟(以用戶的觀影為實(shí)例進(jìn)行分析):
1.1收集用戶畫像的數(shù)據(jù),看用戶畫像的數(shù)據(jù)來源抒倚。
1.1.1看用戶屬性(用戶屬性用來描述一個(gè)用戶的“個(gè)性”從而與其他用戶加以區(qū)分)褐着。
1.1.2看用戶觀影的行為
1.2用戶畫像特性
1.2.1動(dòng)態(tài)性:從用戶畫像的數(shù)據(jù)來源分析,顯然用戶畫像具有較強(qiáng)的動(dòng)態(tài)性托呕,其中含蓉,用戶屬性涉及人口統(tǒng)計(jì)特征,相對比較穩(wěn)定项郊,然而用戶的觀影行為則是隨時(shí)間持續(xù)增加的馅扣,用戶在系統(tǒng)內(nèi)的每次觀影行為都使得現(xiàn)有的用戶畫像喪失時(shí)效性。此外着降,用戶會(huì)受到周圍環(huán)境差油、其他用戶等的影響,從而改變其觀影偏好任洞。所有這些都將決定了用戶畫像不可能一塵不變厌殉,而是實(shí)時(shí)動(dòng)態(tài)變化的食绿。這就要求我們設(shè)計(jì)合理有效的動(dòng)態(tài)更新機(jī)制,從而精準(zhǔn)的刻畫用戶公罕。
1.2.2時(shí)空局限性:首先在時(shí)間上,用戶畫像的目標(biāo)是通過精準(zhǔn)的刻畫用戶耀销,從而提供個(gè)性化的服務(wù)楼眷,因此,用戶畫像對于時(shí)效性非常敏感熊尉,某一時(shí)刻的用戶畫像對該時(shí)刻的推薦結(jié)果最為有效罐柳,距離時(shí)間越遠(yuǎn),推薦結(jié)果的精確性越低狰住,參考價(jià)值越差张吉。
其次,在空間上催植,不同的應(yīng)用領(lǐng)域有不同的側(cè)重點(diǎn)肮蛹,例如營銷領(lǐng)域的用戶畫像主要側(cè)重用戶的消費(fèi)習(xí)慣,而在視頻推薦領(lǐng)域创南,用戶畫像則主要側(cè)重用戶的觀影喜好伦忠,因此,需要針對各自的特點(diǎn)設(shè)計(jì)相應(yīng)的用戶畫像稿辙,沒有哪個(gè)用戶畫像一經(jīng)構(gòu)建就可以適用于所有的應(yīng)用領(lǐng)域昆码。
2.用戶畫像建模:
2.1用戶定量畫像
2.2用戶定性畫像
2.2.1標(biāo)簽和用戶定性畫像
(1)如何定義和表示標(biāo)簽?包括標(biāo)簽名稱邻储、標(biāo)簽類別赋咽、標(biāo)簽值的取值范圍等。
(2)如何解釋標(biāo)簽吨娜?主要是對標(biāo)簽的語義信息進(jìn)行描述脓匿,從語義上給出標(biāo)簽的解釋。
(3)如何推理標(biāo)簽萌壳?主要是定義相應(yīng)的推理規(guī)則亦镶,從而實(shí)現(xiàn)標(biāo)簽之間的推理。
(4)如何驗(yàn)證標(biāo)簽袱瓮?包括標(biāo)簽的定義是否合理缤骨,標(biāo)簽關(guān)系是否一致、正確等尺借。
然后將這些標(biāo)簽用一個(gè)表格來表示绊起。
2.2.2基于知識(shí)的用戶定性畫像分析
基于知識(shí)的用戶定性畫像主要以觀眾和視頻的相關(guān)知識(shí)作為畫像建模的核心。從用戶維度來看燎斩,相關(guān)知識(shí)包括用戶特征虱歪、用戶行為蜂绎、興趣偏好等;從視頻維度來看笋鄙,相關(guān)知識(shí)包括視頻特征等师枣。視頻特征是對視頻屬性的描述,包括視頻的名稱萧落、類別践美、導(dǎo)演、主要演員找岖、所屬國家地區(qū)陨倡、語言、上映年份许布、時(shí)長等兴革。視頻特征也與用戶興趣偏好有很大程度的關(guān)系。
從知識(shí)類型來看蜜唾,在視頻推薦應(yīng)用中杂曲,相關(guān)知識(shí)的類型主要有以下三種
(1)與用戶和視頻特征有關(guān)的屬性知識(shí)。
(2)反映用戶興趣偏好的規(guī)則知識(shí)灵妨。
(3)用于推理和確保關(guān)系完整性解阅、正確性的約束知識(shí)。
2.2.3用戶定性畫像的構(gòu)建
構(gòu)建用戶畫像的關(guān)鍵是利用本體對用戶畫像領(lǐng)域中的標(biāo)簽進(jìn)行表示泌霍、驗(yàn)證货抄、推理和解釋。本體的結(jié)構(gòu)一般包括類朱转、屬性蟹地、實(shí)例、公理和推理規(guī)則藤为。
本體構(gòu)建的關(guān)鍵步驟:
1.構(gòu)建領(lǐng)域詞匯表:詞條名稱如電影怪与,類型為類,詞義描述為所有電影的父類缅疟,所屬類別為視頻分别。
2.確定類與類之間的結(jié)構(gòu),最終形成一種樹狀結(jié)構(gòu)存淫。
3.定義屬性(包括對象屬性和數(shù)據(jù)屬性兩種)
如詞條名稱為主題耘斩,類型為屬性,定義域?yàn)橐曨l桅咆,值域?yàn)橹黝}括授,,語義描述為影視作品有主題,所屬類別為對象屬性荚虚。
如詞條名稱為劇情介紹薛夜,類型為屬性,定義域?yàn)橐曨l版述,值域?yàn)樽址吞堇剑Z義描述為對影視作品內(nèi)容的簡單介紹,所屬類型為數(shù)據(jù)屬性腊徙。
4.定義實(shí)例
例如實(shí)例名稱為張藝謀,所屬類別為導(dǎo)演檬某,說明為中國導(dǎo)演,導(dǎo)演了“紅高粱”等作品螟蝙。
5.定義約束公理和推理規(guī)則
2.2.4定性畫像知識(shí)的存儲(chǔ)
對于本體的存儲(chǔ)恢恼,主要有三種方法:
(1)將本體按照某種結(jié)構(gòu)全部存儲(chǔ)在內(nèi)存中,在內(nèi)存結(jié)構(gòu)上執(zhí)行查詢操作胰默,其特點(diǎn)是處理速度快场斑,但是由于物理內(nèi)存的限制,該方法存儲(chǔ)大規(guī)模的本體信息牵署。
(2)將本體存儲(chǔ)為文本文件漏隐,該方法簡單實(shí)用,易于實(shí)現(xiàn)奴迅。
(3)存在關(guān)系型數(shù)據(jù)庫中青责。
h.a.5畫像知識(shí)的推理
本體中蘊(yùn)含了豐富的語義知識(shí),可以對本體知識(shí)庫進(jìn)行推理取具。對于本體使用者來說脖隶,推理的作用主要是獲得本體中特定形式的知識(shí)集合,以及運(yùn)用本體中的知識(shí)來輔助解決涉及語義的應(yīng)用暇检。
3.群體用戶畫像分析
在設(shè)計(jì)推薦系統(tǒng)時(shí)产阱,不可能針對所有的用戶畫像來進(jìn)行設(shè)計(jì),因?yàn)椴煌挠脩舢嬒耖g不可避免存在相互沖突的需求块仆,從而會(huì)使得推薦系統(tǒng)難以決斷构蹬,因此針對系統(tǒng)中存在的大量的用戶畫像,就需要實(shí)施有效的用戶畫像管理悔据。
用戶畫像作為目標(biāo)用戶的標(biāo)簽化庄敛,不僅僅用來分析目標(biāo)用戶,還應(yīng)該包含用戶間的關(guān)聯(lián)分析蜜暑,即群體用戶畫像铐姚。
群體用戶畫像分析的流程主要包括:
(1)用戶畫像獲取。可以通過推薦系統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)模塊獲得隐绵。也可以通過用戶訪談和問卷調(diào)研之众。
(2)用戶畫像相似度計(jì)算。根據(jù)不同的用戶畫像計(jì)算相互間相似程度依许,是區(qū)分用戶群體的重要指標(biāo)棺禾,是開展用戶畫像聚類的前提條件。
(3)用戶畫像聚類峭跳。根據(jù)用戶畫像間的相似程度膘婶,將相似的用戶畫像聚為一類。
(4)群體用戶畫像生成蛀醉。針對不同類別的用戶分別建立有代表性的典型用戶畫像悬襟。
3.1用戶畫像相似度
3.1.1定量相似度計(jì)算
3.1.2定性相似度計(jì)算
3.1.3綜合相似度計(jì)算
3.2用戶畫像聚類
在實(shí)際開發(fā)中,不能為超過三個(gè)的用戶畫像設(shè)計(jì)產(chǎn)品拯刁,否則相互沖突的需求會(huì)讓系統(tǒng)功能難以取舍脊岳。當(dāng)我們有多個(gè)用戶畫像時(shí),我們需要考慮用戶畫像的優(yōu)先級垛玻,在產(chǎn)品設(shè)計(jì)時(shí)割捅,首先考慮滿足首要用戶畫像的需求,然后在不沖突的情況下盡量滿足次要用戶畫像的需求帚桩。
用戶畫像聚類時(shí)根據(jù)用戶畫像本身的特征進(jìn)行分類的一種方法亿驾。
4.用戶畫像管理
用戶畫像作為一種刻畫目標(biāo)用戶,連接用戶需求與系統(tǒng)設(shè)計(jì)的有效工具账嚎,用戶畫像主要包含定性畫像定量畫像兩部分莫瞬,其中,定性畫像主要包括用戶的基本特征醉锄、行為刻畫乏悄、興趣模型和視頻表征等,定量畫像主要包括用戶基礎(chǔ)變量恳不、興趣偏好等可量化的數(shù)據(jù)特征檩小。
用戶畫像的表現(xiàn)形式眾多,常見的有:(1)關(guān)鍵詞法烟勋,即一組代表用戶屬性的特征詞规求。
(2)評分矩陣法,即二維矩陣的行來表示用戶卵惦,列表示特征項(xiàng)目阻肿,行列的交叉點(diǎn)為某用戶對某特征項(xiàng)目的評分。
(3)向量空間表示法沮尿,給出一組關(guān)鍵詞及對應(yīng)的比重丛塌。
(4)本體表示法较解,以本體模型存儲(chǔ)用戶的屬性和關(guān)系。
4.1存儲(chǔ)機(jī)制
4.1.1關(guān)系型數(shù)據(jù)庫
4.1.2NoSQL數(shù)據(jù)庫
目前流行的NoSQL數(shù)據(jù)庫大體可以分為以下幾類:
(1)鍵值存儲(chǔ)數(shù)據(jù)庫赴邻。
(2)列存儲(chǔ)數(shù)據(jù)庫
(3)文檔型數(shù)據(jù)庫
(4)圖形數(shù)據(jù)庫
4.1.3數(shù)據(jù)倉庫
4.2查詢機(jī)制
(1)用戶畫像的用途決定了畫像數(shù)據(jù)主要以查詢?yōu)橹鳌?/p>
(2)在涉及用戶畫像的大量查詢中印衔,通常有很多查詢都是重復(fù)的,很少一部分查詢就占了用戶需求的大部分姥敛。
4.3定時(shí)更新機(jī)制
有效的用戶畫像需要不斷地進(jìn)行完善和持續(xù)更新奸焙。
用戶畫像地更新機(jī)制按工作流程主要涉及以下幾個(gè)問題
(1)如何獲取實(shí)時(shí)變化的用戶畫像數(shù)據(jù)。
(2)如何設(shè)置合適的用戶畫像更新觸發(fā)條件彤敛。
(3)高效的更新算法与帆。
4.3.1獲取實(shí)時(shí)用戶信息
1.靜態(tài)信息數(shù)據(jù)
2.動(dòng)態(tài)信息數(shù)據(jù)
用戶不斷變化的行為信息,如觀看視頻墨榄、搜索信息玄糟、發(fā)表評分、接觸渠道等袄秩,這類信息一般為非結(jié)構(gòu)化或半結(jié)構(gòu)化信息茶凳,其收集方式主要為隱式收集。
4.3.2更新觸發(fā)條件
有三種方式:(1)通過設(shè)置一個(gè)閾值播揪,當(dāng)獲取的實(shí)時(shí)畫像數(shù)據(jù)量超過這一閾值時(shí),根據(jù)存儲(chǔ)的畫像數(shù)據(jù)構(gòu)建用戶畫像筒狠,(2)設(shè)置一個(gè)時(shí)間周期猪狈,每隔該周期時(shí)間根據(jù)存儲(chǔ)的畫像數(shù)據(jù)構(gòu)建用戶畫像,(3)首先從增加的數(shù)據(jù)中挖掘用戶畫像辩恼,然后將其與原先得到的用戶畫像進(jìn)行比較,根據(jù)比較的結(jié)果來決定是否更新。
4.3.3更新機(jī)制
用戶數(shù)據(jù)總是處在不斷更新的狀態(tài)宣蔚,當(dāng)用戶畫像數(shù)據(jù)庫發(fā)生變化后肚逸,如何對已經(jīng)得到的用戶畫像進(jìn)行更新維護(hù)是需要解決的重要問題,一個(gè)直接的辦法是直接更新聘萨,即讀取所有歷史用戶數(shù)據(jù)重新生成用戶畫像竹椒。再者增量更新是指在進(jìn)行更新操作時(shí),只更新需要改變的地方米辐,不需要更新或者已經(jīng)更新過的地方則不會(huì)重復(fù)更新胸完。
5.視頻推薦概述
5.1主流推薦方法的分類
5.1.1協(xié)同過濾的推薦方法
5.1.2基于內(nèi)容的推薦方法
5.1.3基于知識(shí)的推薦方法
5.1.4混合推薦方法
5.2推薦系統(tǒng)的評測方法
5.3視頻推薦與用戶畫像的邏輯關(guān)系
6.協(xié)同過濾的推薦方法
分為以記憶為基礎(chǔ)的協(xié)同過濾和以模型為基礎(chǔ)的協(xié)同過濾。
7.基于內(nèi)容的推薦方法(CB)
7.2CB推薦中的特征向量
在CB推薦系統(tǒng)中翘贮,需要為每個(gè)物品創(chuàng)建一個(gè)物品畫像用于記錄該物品的內(nèi)容固有屬性赊窥,也需要為每個(gè)用戶創(chuàng)建一個(gè)用戶畫像用于記錄用戶的特定偏好。物品——用戶畫像的本質(zhì)是由一些表示特征的向量組成狸页。
7.3基礎(chǔ)CB推薦算法锨能、基于TF-IDF的CB推薦算法、基于KNN的CB推薦算法、基于Rocchio的CB推薦算法址遇、基于決策樹的CB推薦算法熄阻、基于線性分類的CB推薦算法、基于樸素貝葉斯的CB推薦算法傲隶。