Lesson 13 相似文章推薦
在用戶閱讀某篇文章時驾锰,為用戶推薦更多與在讀文章內(nèi)容相類似的文章庙曙。
推薦(Recommended):介紹好的人或者事物蟋滴,希望被任用或者接受。數(shù)據(jù)挖掘領(lǐng)域范删,推薦包括相似推薦以及協(xié)同過濾推薦
相似推薦(Similar Recommended):當(dāng)用戶表現(xiàn)出對某人或者某物感興趣時蕾域,為他推薦與之相似的人或者物,核心定理:人以群分到旦,物以類聚
協(xié)同過濾推薦(Collaborative Filtering Recommendation):利用已有用戶群過去的行為或意見旨巷,預(yù)測當(dāng)前用戶最可能喜歡哪些東西或?qū)δ男〇|西感興趣
相關(guān)文章推薦的主要原理-余弦相似度(cosine similarity)
用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。余弦值越接近1添忘,就表明夾角越接近0度采呐,也就是兩個向量越相似
cosine.png
計(jì)算過程
Step 1: 分詞,去重后生成語料庫
Step 2: 根據(jù)生成的語料庫搁骑,統(tǒng)計(jì)詞頻(向量化)斧吐,生成的matrix要對應(yīng)語料庫的順序,在文章中未出現(xiàn)的詞語仲器,詞頻為0
Step 3: 計(jì)算余弦相似度
余弦距離計(jì)算
sklearn.metrics.pairwise_distances
matrix: 矩陣
metric="cosine"
Lesson 14 自動摘要
摘要:全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容的簡單連貫的短文
自動摘要:利用計(jì)算機(jī)自動地從原始文獻(xiàn)中提取摘要
算法原理-余弦定理
摘要步驟
獲取需要摘要的文章
對該文章進(jìn)行詞頻統(tǒng)計(jì)
對該文章進(jìn)行分句(利用中文標(biāo)點(diǎn)符號)
計(jì)算分句與文章之間的余弦相似度
取相似度最高的分句煤率,作為文章的摘要