推薦系統(tǒng)基礎(chǔ)知識概覽圖
在進行推薦系統(tǒng)構(gòu)建時,我們主要分為四大步:1.基于數(shù)據(jù)源獲取數(shù)據(jù) 2.對數(shù)據(jù)進行預處理操作 3.通過相關(guān)模型對數(shù)據(jù)進行分析 4.對分析過后的結(jié)果進行轉(zhuǎn)化解釋
RS預處理經(jīng)常用到的方法介紹
相似度度量方式
相似度度量方式其實就是我們經(jīng)常說到的距離公式,如歐式距離钱磅,皮爾遜距離等梦裂。在使用聚類算法、回歸算法和分類算法中會經(jīng)常用到续搀,如KNN塞琼,KMeans模型。下面將介紹比較經(jīng)常使用的距離公式(又稱相似度度量方式):
The Minkowski Distance
x,y 分別為不同的數(shù)據(jù)記錄禁舷,形式為一個向量彪杉。k代表向量中的第幾個特征,n為向量總特征的總數(shù)牵咙,r代表我們要使用用來計算距離的維度派近。當r=1時,distance為L1或被稱為Manhattan Distance洁桌;當r=2時渴丸,distance為L2或被稱為Euclidean Distance;以此類推另凌,當r=n時谱轨,及Ln。
在使用該距離方法時吠谢,往往會因為不同特征的不同區(qū)間而導致兩個特征的距離衡量不合理土童,因此在使用該距離方法時,會先將數(shù)據(jù)進行標準化工坊,使維度變?yōu)槌叨葻o關(guān)的献汗。但某兩個維度可能在高維度中存在線性相關(guān)的關(guān)系。
The Mahalanobis distance(馬氏距離)
馬氏距離就是考慮到了在高維度中可能存在線性相關(guān)的關(guān)系問題王污。馬氏距離會將坐標軸進行拉伸罢吃,從而使各個特征都線性無關(guān),再進行歸一化昭齐。我們也可以理解為先對數(shù)據(jù)進行主成分分析尿招,然后再對數(shù)據(jù)進行歸一化操作。
Cosine Similarity
余弦相似度也就是通過計算x和y向量的夾角司浪。兩個向量夾角越大說明相似性越低泊业,反之夾角越小相似度越高。余弦相似度公式最重要的地方是在分子部分的點乘運算啊易,分母相當于對向量進行了歸一化操作吁伺,不過計算余弦相似度最好先進行零均值化,效果往往會更出色租谈。
Pearson Correlation?
Given the covariance of data points x and y Σ, and their standard deviation σ
皮爾森相關(guān)系數(shù)描述的是兩條記錄的線性相關(guān)性篮奄。若值大于0捆愁,則正相關(guān);小于0窟却,負相關(guān)昼丑;等于零,無線性相關(guān)性夸赫;等于1或-1菩帝,說明落在直線上。其取值范圍在[-1, 1]之間
References
1.Recommender Systems Handbook p39-p48