《推薦系統》讀書筆記

推薦系統學習筆記.png

推薦系統學習筆記
第一章節(jié) 概念與思維
什么時候需要用有推薦系統
推薦系統常見的問題模式(主要做什么的)
1.預測問題模式
評分預測
行為預測
2常見難題
冷啟動問題
EE問題:探索和利用問題(exploration and exploitation)
安全問題
需要有的思維模式
1. 關鍵元素
UI UE
數據
領域知識
算法
2.思維模式
目標思維
要給推薦系統一個目標去讓系統優(yōu)化迭代
注意點
區(qū)分目標 VS 手段
給推薦系統提的應該是目標,而非具體手段
需要目標同時也需要知道限制性條件
比如 點擊率 、 多樣性
不確定性思維
用概率性看待結果被环,而不是因果關系
第二章 產品漫談
1.推薦系統的價值和成本
更好的連接內容和用戶
成本
人員構成成本
算法工程師+架構設計師徐伐;高級+初級梯度搭配
硬件成本
2.feed流的歷史
社交動態(tài)信息流——>圖文信息流——>視頻信息流
配套設施
內容源
廣告系統
將推薦系統的用戶注意里變現
feed流是個半衰期較長的注意力存儲器
其放射性核的數目衰變到原有的一半所需的時間明也。是放射性元素的一個特性常數允坚,
一般不隨元素質量的多少匹层、外界條件的變化以及元素所處狀態(tài)的不同而改變隙笆。
第三章 內容推薦
1. 用戶畫像【user profile】
用戶畫像是給推薦系統用的,所以需要向量化升筏?
用戶畫像不是推薦系統的目的撑柔,是推薦系統關鍵環(huán)節(jié)中的一個副產品
用戶畫像如果不向量化,無法計算您访?
不是也需要一些顯式畫像么铅忿?要不然推薦冷啟動怎么做?
用戶畫像的量化不應該主觀灵汪,應該根據使用效果(排序好壞檀训、召回覆蓋等指標)來指導用戶畫像量化
類型
稀疏向量
標簽
注冊信息等
稠密向量
訓練神經網絡拿到的embedding向量
通過矩陣分解得到的隱因子
通過淺層語義分析或者話題模型得到的話題分布
關鍵元素
維度
量化
用戶畫像構建
1.查戶口
獲取常規(guī)人口統計學意義上畫像信息
如年齡性別嗯
2.堆數據
根據用戶的一些歷史行為進行加工獲取
如根據用戶感興趣的物品標簽柑潦,代表用戶興趣標簽
3.黑盒子
用機器學習的方式,學習出人類無法理解的稠密向量
2.標簽挖掘方式
挖掘來源
用戶層面
注冊資料信息
自己發(fā)布的的動態(tài)信息
有相關行為的物料信息
物品層面
物品標題峻凫、描述
好的標簽庫的標準
覆蓋面廣
要對大部分視頻都能覆蓋到標簽
健康性渗鬼?
標簽平均覆蓋物品的程度
齊普夫定律?
好的標簽庫荧琼,標簽覆蓋分布熵要高譬胎,熵越高分布越均勻
相似性
(高內聚,低耦合)
同一個標簽內容都是相似的命锄,不同標簽之間有差別
問題
多分類體系怎么說堰乔?就一定是標簽系統本身的問題?
也即一個item可用同一套分類體系的多個分類去同時表達
如何建設標簽庫
中心化+去中心化相結合
標簽挖掘方式
目的
將非結構化的文本信息挖掘為結構化的標簽信息脐恩,以方便計算機進行向量化計算
NLP方式
關鍵詞提取
無監(jiān)督方式
TF-IDF
來源于檢索領域
更適用于長文本
核心思想:如果一個詞語出現頻率高的重要镐侯,但是都出現的不重要
計算方式
1. 統計TF
2.計算IDF
=log(N/n+1)
N有多少個文本
n= 統計某個詞出現了多少次在文本中
3. 將TFIDF,得出每個詞的權重
4.根據權重篩選關鍵詞
常用方式
1. 取top k
2. 取大于閾值以上的
3驶冒。增加其他過濾條件
TextRank
核心:
1. 文本中取K個詞苟翻,統計這些詞語間的共現關系,無向圖
2.所有詞初始化都是1
每個節(jié)點把自己權重平均分配給所有和自己又關聯的節(jié)點
每個節(jié)點把其他節(jié)點分配給自己的權重求和只怎,作為自己新權重
如上兩步反復迭代袜瞬,直到權重收斂為止
特點:有共現關系的詞會支持對方成為關鍵詞
相關公式
w1=(1-d)+d
(w2/2+w3/2+w4/2+w5/2+w6/2)
d: 阻尼系數
w1: 第一個詞的權重
實體詞識別
命名實體識別NER =named-E老太太又recognition
步驟
分詞
詞性標注
實體識別
屬于序列標注問題
常用方法
HMM
hidden markov model隱藏馬爾可夫模型
CRF
conditional random Field 條件隨機場
biLSTIM+crf
詞典法
內容分類
文本聚類
思路
1. 對全量文本聚類,得到每個類的中心
2. 對新的文本向局里最近的類中心聚攏身堡,歸入該類
3. 給每個類一個唯一ID
常用方法
Kmeans
主題模型/隱語義模型LSI
latent Semantic Index
LDA Latent Dirichlet Allocation
軟聚類
可以讓一個文本屬于多個聚類
主題模型
嵌入(embedding)
本身也可以作為文本分類和聚類
得到向量的方式
word2Vec
使用最廣泛
淺層神經網絡
把每個詞用One-Hot編碼,用詞預測詞拍鲤。網絡輸入輸出限量唯獨都是詞典長度贴谎,中間隱藏神經元個數就是最終訓練出來的向量維度數
;最終訓練出來的embdedding向量就是輸入層和隱藏層之間的網絡參數
GloVe
FastText
目的:解決常規(guī)標簽偏稀疏 的問題季稳。引入向量引入同義詞/近義詞標簽
問題
怎么沒說視覺挖掘方式擅这?視頻feed流類內容挖掘大部分依托于視覺信息
因為標簽體系都是文本?
3. 標簽選擇
目的:如何根據物品上的標簽景鼠,傳遞到用戶身上
選擇方法
卡方檢驗
Chi-Square Test
信息增益
Information Gain
都是有監(jiān)督方法

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末仲翎,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子铛漓,更是在濱河造成了極大的恐慌溯香,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浓恶,死亡現場離奇詭異玫坛,居然都是意外死亡,警方通過查閱死者的電腦和手機包晰,發(fā)現死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門湿镀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炕吸,“玉大人,你說我怎么就攤上這事勉痴『漳#” “怎么了?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵蒸矛,是天一觀的道長嘴瓤。 經常有香客問我,道長莉钙,這世上最難降的妖魔是什么廓脆? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮磁玉,結果婚禮上停忿,老公的妹妹穿的比我還像新娘。我一直安慰自己蚊伞,他們只是感情好席赂,可當我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著时迫,像睡著了一般颅停。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上掠拳,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天癞揉,我揣著相機與錄音,去河邊找鬼溺欧。 笑死喊熟,一個胖子當著我的面吹牛,可吹牛的內容都是我干的姐刁。 我是一名探鬼主播芥牌,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼聂使!你這毒婦竟也來了壁拉?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤柏靶,失蹤者是張志新(化名)和其女友劉穎弃理,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體宿礁,經...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡案铺,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片控汉。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡笔诵,死狀恐怖,靈堂內的尸體忽然破棺而出姑子,到底是詐尸還是另有隱情乎婿,我是刑警寧澤,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布街佑,位于F島的核電站谢翎,受9級特大地震影響,放射性物質發(fā)生泄漏沐旨。R本人自食惡果不足惜森逮,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望磁携。 院中可真熱鬧褒侧,春花似錦、人聲如沸谊迄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽统诺。三九已至歪脏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間粮呢,已是汗流浹背婿失。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鬼贱,地道東北人移怯。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像这难,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子葡秒,可洞房花燭夜當晚...
    茶點故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內容

  • 我教會了你用刀 你竟用刀來捅我 然而你卻死的很慘 因為你不知道 其實我還準備教你用槍 本想今天告訴你 刀的最高境界...
    清凈獨覺閱讀 466評論 6 29
  • 女兒留學澳洲那些事兒(15) 女兒又找到第二份工作了姻乓,在市中心的“珍寶海鮮”,港式飲茶眯牧,早餐為主蹋岩。 有一個多月沒打...
    優(yōu)雅老媽閱讀 392評論 1 4
  • 1 小樹肚臍上貼了膏藥,貼的時候我很興奮對她說:樹学少,快來貼剪个,貼上這個你就是寶貝,你是貼牌的經過認證的寶貝版确! 小樹很...
    應童閱讀 296評論 0 3
  • 今晚的心情扣囊,有點哭笑不得乎折。 螢火蟲之光,那不是真的光芒侵歇,它無法照亮我想要去的遠方骂澄。 我和幸福之間隔著一個光年的距離...
    夢殤古城閱讀 196評論 2 2
  • 剛才聽課,聽到“心理疲勞”這個詞惕虑,這是存在于異常的心理現象的范疇坟冲,我立刻就對號入座了。癥狀是因心理問題造成的無精...
    悠悠6547閱讀 261評論 6 1