推薦系統(tǒng)算法概覽和數(shù)據(jù)預處理方式

推薦系統(tǒng)基礎(chǔ)知識概覽圖

RS知識概覽圖

在進行推薦系統(tǒng)構(gòu)建時,我們主要分為四大步:1.基于數(shù)據(jù)源獲取數(shù)據(jù) 2.對數(shù)據(jù)進行預處理操作 3.通過相關(guān)模型對數(shù)據(jù)進行分析 4.對分析過后的結(jié)果進行轉(zhuǎn)化解釋

RS預處理經(jīng)常用到的方法介紹

相似度度量方式

相似度度量方式其實就是我們經(jīng)常說到的距離公式,如歐式距離钱磅,皮爾遜距離等梦裂。在使用聚類算法、回歸算法和分類算法中會經(jīng)常用到续搀,如KNN塞琼,KMeans模型。下面將介紹比較經(jīng)常使用的距離公式(又稱相似度度量方式):

The Minkowski Distance

The Minkowski Distance

x,y 分別為不同的數(shù)據(jù)記錄禁舷,形式為一個向量彪杉。k代表向量中的第幾個特征,n為向量總特征的總數(shù)牵咙,r代表我們要使用用來計算距離的維度派近。當r=1時,distance為L1或被稱為Manhattan Distance洁桌;當r=2時渴丸,distance為L2或被稱為Euclidean Distance;以此類推另凌,當r=n時谱轨,及Ln。

在使用該距離方法時吠谢,往往會因為不同特征的不同區(qū)間而導致兩個特征的距離衡量不合理土童,因此在使用該距離方法時,會先將數(shù)據(jù)進行標準化工坊,使維度變?yōu)槌叨葻o關(guān)的献汗。但某兩個維度可能在高維度中存在線性相關(guān)的關(guān)系。

The Mahalanobis distance(馬氏距離)

The Mahalanobis distance


公式字符解釋

馬氏距離就是考慮到了在高維度中可能存在線性相關(guān)的關(guān)系問題王污。馬氏距離會將坐標軸進行拉伸罢吃,從而使各個特征都線性無關(guān),再進行歸一化昭齐。我們也可以理解為先對數(shù)據(jù)進行主成分分析尿招,然后再對數(shù)據(jù)進行歸一化操作。

Cosine Similarity

Cosine Similarity

余弦相似度也就是通過計算x和y向量的夾角司浪。兩個向量夾角越大說明相似性越低泊业,反之夾角越小相似度越高。余弦相似度公式最重要的地方是在分子部分的點乘運算啊易,分母相當于對向量進行了歸一化操作吁伺,不過計算余弦相似度最好先進行零均值化,效果往往會更出色租谈。

Pearson Correlation?

Pearson Correlation

Given the covariance of data points x and y Σ, and their standard deviation σ

皮爾森相關(guān)系數(shù)描述的是兩條記錄的線性相關(guān)性篮奄。若值大于0捆愁,則正相關(guān);小于0窟却,負相關(guān)昼丑;等于零,無線性相關(guān)性夸赫;等于1或-1菩帝,說明落在直線上。其取值范圍在[-1, 1]之間

References

1.Recommender Systems Handbook p39-p48

2.https://www.cnblogs.com/DPL-Doreen/p/8183909.html

3.https://blog.csdn.net/chao2016/article/details/80917579

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末茬腿,一起剝皮案震驚了整個濱河市呼奢,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌切平,老刑警劉巖握础,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異悴品,居然都是意外死亡禀综,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進店門苔严,熙熙樓的掌柜王于貴愁眉苦臉地迎上來定枷,“玉大人,你說我怎么就攤上這事届氢∫琅福” “怎么了?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵悼沈,是天一觀的道長。 經(jīng)常有香客問我姐扮,道長絮供,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任茶敏,我火速辦了婚禮壤靶,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘惊搏。我一直安慰自己贮乳,他們只是感情好,可當我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布恬惯。 她就那樣靜靜地躺著向拆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪酪耳。 梳的紋絲不亂的頭發(fā)上浓恳,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天刹缝,我揣著相機與錄音,去河邊找鬼颈将。 笑死梢夯,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的晴圾。 我是一名探鬼主播颂砸,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼死姚!你這毒婦竟也來了人乓?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤知允,失蹤者是張志新(化名)和其女友劉穎撒蟀,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體温鸽,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡保屯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了涤垫。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姑尺。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蝠猬,靈堂內(nèi)的尸體忽然破棺而出切蟋,到底是詐尸還是另有隱情,我是刑警寧澤榆芦,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布柄粹,位于F島的核電站,受9級特大地震影響匆绣,放射性物質(zhì)發(fā)生泄漏驻右。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一崎淳、第九天 我趴在偏房一處隱蔽的房頂上張望堪夭。 院中可真熱鬧,春花似錦拣凹、人聲如沸森爽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽爬迟。三九已至,卻和暖如春祈惶,著一層夾襖步出監(jiān)牢的瞬間雕旨,已是汗流浹背扮匠。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留凡涩,地道東北人棒搜。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像活箕,于是被迫代替她去往敵國和親力麸。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容