推薦系統學習筆記
第一章節(jié) 概念與思維
什么時候需要用有推薦系統
推薦系統常見的問題模式(主要做什么的)
1.預測問題模式
評分預測
行為預測
2常見難題
冷啟動問題
EE問題:探索和利用問題(exploration and exploitation)
安全問題
需要有的思維模式
1. 關鍵元素
UI UE
數據
領域知識
算法
2.思維模式
目標思維
要給推薦系統一個目標去讓系統優(yōu)化迭代
注意點
區(qū)分目標 VS 手段
給推薦系統提的應該是目標,而非具體手段
需要目標同時也需要知道限制性條件
比如 點擊率 、 多樣性
不確定性思維
用概率性看待結果被环,而不是因果關系
第二章 產品漫談
1.推薦系統的價值和成本
更好的連接內容和用戶
成本
人員構成成本
算法工程師+架構設計師徐伐;高級+初級梯度搭配
硬件成本
2.feed流的歷史
社交動態(tài)信息流——>圖文信息流——>視頻信息流
配套設施
內容源
廣告系統
將推薦系統的用戶注意里變現
feed流是個半衰期較長的注意力存儲器
其放射性核的數目衰變到原有的一半所需的時間明也。是放射性元素的一個特性常數允坚,
一般不隨元素質量的多少匹层、外界條件的變化以及元素所處狀態(tài)的不同而改變隙笆。
第三章 內容推薦
1. 用戶畫像【user profile】
用戶畫像是給推薦系統用的,所以需要向量化升筏?
用戶畫像不是推薦系統的目的撑柔,是推薦系統關鍵環(huán)節(jié)中的一個副產品
用戶畫像如果不向量化,無法計算您访?
不是也需要一些顯式畫像么铅忿?要不然推薦冷啟動怎么做?
用戶畫像的量化不應該主觀灵汪,應該根據使用效果(排序好壞檀训、召回覆蓋等指標)來指導用戶畫像量化
類型
稀疏向量
標簽
注冊信息等
稠密向量
訓練神經網絡拿到的embedding向量
通過矩陣分解得到的隱因子
通過淺層語義分析或者話題模型得到的話題分布
關鍵元素
維度
量化
用戶畫像構建
1.查戶口
獲取常規(guī)人口統計學意義上畫像信息
如年齡性別嗯
2.堆數據
根據用戶的一些歷史行為進行加工獲取
如根據用戶感興趣的物品標簽柑潦,代表用戶興趣標簽
3.黑盒子
用機器學習的方式,學習出人類無法理解的稠密向量
2.標簽挖掘方式
挖掘來源
用戶層面
注冊資料信息
自己發(fā)布的的動態(tài)信息
有相關行為的物料信息
物品層面
物品標題峻凫、描述
好的標簽庫的標準
覆蓋面廣
要對大部分視頻都能覆蓋到標簽
健康性渗鬼?
標簽平均覆蓋物品的程度
齊普夫定律?
好的標簽庫荧琼,標簽覆蓋分布熵要高譬胎,熵越高分布越均勻
相似性
(高內聚,低耦合)
同一個標簽內容都是相似的命锄,不同標簽之間有差別
問題
多分類體系怎么說堰乔?就一定是標簽系統本身的問題?
也即一個item可用同一套分類體系的多個分類去同時表達
如何建設標簽庫
中心化+去中心化相結合
標簽挖掘方式
目的
將非結構化的文本信息挖掘為結構化的標簽信息脐恩,以方便計算機進行向量化計算
NLP方式
關鍵詞提取
無監(jiān)督方式
TF-IDF
來源于檢索領域
更適用于長文本
核心思想:如果一個詞語出現頻率高的重要镐侯,但是都出現的不重要
計算方式
1. 統計TF
2.計算IDF
=log(N/n+1)
N有多少個文本
n= 統計某個詞出現了多少次在文本中
3. 將TFIDF,得出每個詞的權重
4.根據權重篩選關鍵詞
常用方式
1. 取top k
2. 取大于閾值以上的
3驶冒。增加其他過濾條件
TextRank
核心:
1. 文本中取K個詞苟翻,統計這些詞語間的共現關系,無向圖
2.所有詞初始化都是1
每個節(jié)點把自己權重平均分配給所有和自己又關聯的節(jié)點
每個節(jié)點把其他節(jié)點分配給自己的權重求和只怎,作為自己新權重
如上兩步反復迭代袜瞬,直到權重收斂為止
特點:有共現關系的詞會支持對方成為關鍵詞
相關公式
w1=(1-d)+d(w2/2+w3/2+w4/2+w5/2+w6/2)
d: 阻尼系數
w1: 第一個詞的權重
實體詞識別
命名實體識別NER =named-E老太太又recognition
步驟
分詞
詞性標注
實體識別
屬于序列標注問題
常用方法
HMM
hidden markov model隱藏馬爾可夫模型
CRF
conditional random Field 條件隨機場
biLSTIM+crf
詞典法
內容分類
文本聚類
思路
1. 對全量文本聚類,得到每個類的中心
2. 對新的文本向局里最近的類中心聚攏身堡,歸入該類
3. 給每個類一個唯一ID
常用方法
Kmeans
主題模型/隱語義模型LSI
latent Semantic Index
LDA Latent Dirichlet Allocation
軟聚類
可以讓一個文本屬于多個聚類
主題模型
嵌入(embedding)
本身也可以作為文本分類和聚類
得到向量的方式
word2Vec
使用最廣泛
淺層神經網絡
把每個詞用One-Hot編碼,用詞預測詞拍鲤。網絡輸入輸出限量唯獨都是詞典長度贴谎,中間隱藏神經元個數就是最終訓練出來的向量維度數
;最終訓練出來的embdedding向量就是輸入層和隱藏層之間的網絡參數
GloVe
FastText
目的:解決常規(guī)標簽偏稀疏 的問題季稳。引入向量引入同義詞/近義詞標簽
問題
怎么沒說視覺挖掘方式擅这?視頻feed流類內容挖掘大部分依托于視覺信息
因為標簽體系都是文本?
3. 標簽選擇
目的:如何根據物品上的標簽景鼠,傳遞到用戶身上
選擇方法
卡方檢驗
Chi-Square Test
信息增益
Information Gain
都是有監(jiān)督方法
《推薦系統》讀書筆記
推薦系統學習筆記.png
?著作權歸作者所有,轉載或內容合作請聯系作者
- 文/潘曉璐 我一進店門湿镀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炕吸,“玉大人,你說我怎么就攤上這事勉痴『漳#” “怎么了?”我有些...
- 文/不壞的土叔 我叫張陵蒸矛,是天一觀的道長嘴瓤。 經常有香客問我,道長莉钙,這世上最難降的妖魔是什么廓脆? 我笑而不...
- 正文 為了忘掉前任,我火速辦了婚禮磁玉,結果婚禮上停忿,老公的妹妹穿的比我還像新娘。我一直安慰自己蚊伞,他們只是感情好席赂,可當我...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著时迫,像睡著了一般颅停。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上掠拳,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼聂使!你這毒婦竟也來了壁拉?” 一聲冷哼從身側響起,我...
- 正文 年R本政府宣布街佑,位于F島的核電站谢翎,受9級特大地震影響,放射性物質發(fā)生泄漏沐旨。R本人自食惡果不足惜森逮,卻給世界環(huán)境...
- 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望磁携。 院中可真熱鬧褒侧,春花似錦、人聲如沸谊迄。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽统诺。三九已至歪脏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間粮呢,已是汗流浹背婿失。 一陣腳步聲響...