Python學(xué)習(xí)筆記-3群18組-杜杜狼-2017.8.9

Lesson 13 相似文章推薦

在用戶閱讀某篇文章時驾锰,為用戶推薦更多與在讀文章內(nèi)容相類似的文章庙曙。

推薦(Recommended):介紹好的人或者事物蟋滴,希望被任用或者接受。數(shù)據(jù)挖掘領(lǐng)域范删,推薦包括相似推薦以及協(xié)同過濾推薦
相似推薦(Similar Recommended):當(dāng)用戶表現(xiàn)出對某人或者某物感興趣時蕾域,為他推薦與之相似的人或者物,核心定理:人以群分到旦,物以類聚
協(xié)同過濾推薦(Collaborative Filtering Recommendation):利用已有用戶群過去的行為或意見旨巷,預(yù)測當(dāng)前用戶最可能喜歡哪些東西或?qū)δ男〇|西感興趣

相關(guān)文章推薦的主要原理-余弦相似度(cosine similarity)

用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。余弦值越接近1添忘,就表明夾角越接近0度采呐,也就是兩個向量越相似

cosine.png

計(jì)算過程

Step 1: 分詞,去重后生成語料庫
Step 2: 根據(jù)生成的語料庫搁骑,統(tǒng)計(jì)詞頻(向量化)斧吐,生成的matrix要對應(yīng)語料庫的順序,在文章中未出現(xiàn)的詞語仲器,詞頻為0
Step 3: 計(jì)算余弦相似度

余弦距離計(jì)算

sklearn.metrics.pairwise_distances
matrix: 矩陣
metric="cosine"

Lesson 14 自動摘要

摘要:全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容的簡單連貫的短文
自動摘要:利用計(jì)算機(jī)自動地從原始文獻(xiàn)中提取摘要

算法原理-余弦定理

摘要步驟

獲取需要摘要的文章
對該文章進(jìn)行詞頻統(tǒng)計(jì)
對該文章進(jìn)行分句(利用中文標(biāo)點(diǎn)符號)
計(jì)算分句與文章之間的余弦相似度
取相似度最高的分句煤率,作為文章的摘要

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市乏冀,隨后出現(xiàn)的幾起案子蝶糯,更是在濱河造成了極大的恐慌,老刑警劉巖辆沦,帶你破解...
    沈念sama閱讀 222,378評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件昼捍,死亡現(xiàn)場離奇詭異,居然都是意外死亡肢扯,警方通過查閱死者的電腦和手機(jī)妒茬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蔚晨,“玉大人乍钻,你說我怎么就攤上這事∶螅” “怎么了银择?”我有些...
    開封第一講書人閱讀 168,983評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長谨履。 經(jīng)常有香客問我欢摄,道長,這世上最難降的妖魔是什么笋粟? 我笑而不...
    開封第一講書人閱讀 59,938評論 1 299
  • 正文 為了忘掉前任怀挠,我火速辦了婚禮,結(jié)果婚禮上害捕,老公的妹妹穿的比我還像新娘绿淋。我一直安慰自己,他們只是感情好尝盼,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,955評論 6 398
  • 文/花漫 我一把揭開白布吞滞。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪裁赠。 梳的紋絲不亂的頭發(fā)上殿漠,一...
    開封第一講書人閱讀 52,549評論 1 312
  • 那天,我揣著相機(jī)與錄音佩捞,去河邊找鬼绞幌。 笑死,一個胖子當(dāng)著我的面吹牛一忱,可吹牛的內(nèi)容都是我干的莲蜘。 我是一名探鬼主播,決...
    沈念sama閱讀 41,063評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼帘营,長吁一口氣:“原來是場噩夢啊……” “哼票渠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起芬迄,我...
    開封第一講書人閱讀 39,991評論 0 277
  • 序言:老撾萬榮一對情侶失蹤问顷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后薯鼠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體择诈,經(jīng)...
    沈念sama閱讀 46,522評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,604評論 3 342
  • 正文 我和宋清朗相戀三年出皇,在試婚紗的時候發(fā)現(xiàn)自己被綠了羞芍。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,742評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡郊艘,死狀恐怖荷科,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情纱注,我是刑警寧澤畏浆,帶...
    沈念sama閱讀 36,413評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站狞贱,受9級特大地震影響刻获,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瞎嬉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,094評論 3 335
  • 文/蒙蒙 一蝎毡、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧氧枣,春花似錦沐兵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春毁靶,著一層夾襖步出監(jiān)牢的瞬間胧奔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評論 1 274
  • 我被黑心中介騙來泰國打工老充, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留葡盗,地道東北人螟左。 一個月前我還...
    沈念sama閱讀 49,159評論 3 378
  • 正文 我出身青樓啡浊,卻偏偏與公主長得像,于是被迫代替她去往敵國和親胶背。 傳聞我的和親對象是個殘疾皇子巷嚣,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,747評論 2 361

推薦閱讀更多精彩內(nèi)容