? ? ? ? 基于內(nèi)容的個性化新聞推薦系統(tǒng)可以分為三層: 語義處理層梳侨、興趣模型層和用戶交互層. 在語義處理層主要通過語義處理完成新聞分類; 在興趣模型層主要實現(xiàn)興趣模型的建立與更新,以及興趣的發(fā)現(xiàn)與新聞推薦; 在用戶交互層記錄用戶的相關(guān)行為信息,為用戶興趣模型的更新提供依據(jù).如下圖所示
? ? ? ? ?用特征項的頻數(shù)權(quán)重與其所屬對象權(quán)重之積來描述該特征項的權(quán)重,并將權(quán)重大于某一閾值的前 n 個關(guān)鍵詞作為該文檔的特征項,以此建立新聞文檔的特征模型. 新聞文檔模型采用向量空間模型表示篓冲,:NDMi = { ( T1,W1 ) 宠哄,( T2壹将,W2 ) …( Tn,Wn ) }其中毛嫉,NDMi 表示第 i 個新聞文檔的特征模型诽俯,Tj表示該新聞文檔的第 j 個特征項,Wj表示此特征項 Tj在該文檔中的權(quán)重. 在該模型中承粤,閾值取得越大暴区,特征項越少,計算越簡單辛臊,分類也越粗糙;閾值越小仙粱,特征項越多,計算越復(fù)雜彻舰,分類越精準(zhǔn).特征項取多少合適伐割,這與個體的興趣取向的維度有關(guān)系。
? ? ? ? ? 用戶興趣模型表示用戶對信息的穩(wěn)定需求刃唤,能夠反應(yīng)用戶在一段時間內(nèi)對新聞的主要傾向.用戶興趣模型在個性化推薦系統(tǒng)中起到核心作用隔心,真實地表現(xiàn)了用戶的偏好,在很大程度上決定個性化推薦的效果. 用戶興趣模型有一個動態(tài)更新的過程尚胞,更新依據(jù)主要是用戶行為信息. 良好的用戶興趣模型有利于個性化推薦硬霍,本文設(shè)計的用戶興趣模型具有指向性和持久性. 用戶興趣模型亦用向量空間模型表示,在結(jié)構(gòu)上與新聞文檔模型一致笼裳,如式( 3) :UIMi = { ( C1唯卖,W1 ) ,( C2躬柬,W2 ) …( Cn耐床,Wn ) }其中,UIMi表示用戶 Ui的用戶興趣模型楔脯,Cj表示用戶感興趣的類別,Wj表示該用戶對該類別感興趣的程度胯甩,即權(quán)重. 如: { ( 軍事昧廷,0. 2) 堪嫂,( 經(jīng)濟,0.1) 木柬,( 食品安全皆串,0. 2) ,……} .
? ? ? 基于內(nèi)容的個性化新聞推薦興趣模型. 并依據(jù)該模型進行新聞推薦眉枕,同時根據(jù)用戶的行為對用戶興趣模型動態(tài)更新. 這樣用戶可以不用花時間從大量的新聞中去尋找自己感興趣的新聞.用戶興趣模型和新聞文檔模型都是基于向量空間的表示方法恶复,利用向量空間模型的相似度計算得到與用戶興趣模型匹配的新聞文檔集,并完成新聞推薦. 關(guān)鍵代碼見下圖
基于pytion 語言的訓(xùn)練測試速挑,十萬行紀(jì)錄經(jīng)過去重后谤牡,前三分之二作為訓(xùn)練集 后面的紀(jì)錄作為測試集。
? ? ? 推薦系統(tǒng)向用戶推薦新聞姥宝,可以向同一用戶推薦多條新聞翅萤,也可以向多個用戶推薦同一新聞.不同的用戶收到新聞后,會表現(xiàn)出不同的興趣度腊满,其具體表現(xiàn)在用戶的不同的眼神和面部肌肉表情中. 對于系統(tǒng)向用戶推薦的新聞套么,假設(shè)共得到 n 人次的用戶體驗,且第 i 人次用戶體驗的興趣度為Ii ( 已進行了歸一化處理) 碳蛋,則定義推薦系統(tǒng)的推薦效率即命中率 h 為:h = 1n ∑ni = 1Ii該式表明胚泌,系統(tǒng)推薦命中率的計算總是從第一條信息開始的. 初期的較低的推薦命中率對后期的推薦命中率有較大的影響. 總的說來,推薦系統(tǒng)的命中率高肃弟,則推薦效率高玷室,用戶體驗好。
所用技術(shù)和工具: IDEA(java IDE) ?pycharm(pytion IDE)愕乎、jieba分詞工具 +盤古分詞阵苇、mathematics ?數(shù)學(xué)實驗工具.Numbers