如何使用MapReduce計算相似度

Neil Zhu,簡書ID Not_GOD甸鸟,University AI 創(chuàng)始人 & Chief Scientist,致力于推進(jìn)世界人工智能化進(jìn)程。制定并實施 UAI 中長期增長戰(zhàn)略和目標(biāo)励稳,帶領(lǐng)團(tuán)隊快速成長為人工智能領(lǐng)域最專業(yè)的力量。
作為行業(yè)領(lǐng)導(dǎo)者囱井,他和UAI一起在2014年創(chuàng)建了TASA(中國最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識中心全球價值網(wǎng)絡(luò))驹尼,AI growth(行業(yè)智庫培訓(xùn))等,為中國的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分庞呕。此外新翎,他還參與或者舉辦過各類國際性的人工智能峰會和活動,產(chǎn)生了巨大的影響力住练,書寫了60萬字的人工智能精品技術(shù)內(nèi)容地啰,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號和媒體轉(zhuǎn)載與連載澎羞。曾經(jīng)受邀為國內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程髓绽,均受學(xué)生和老師好評。

Cosine similarity


image

由于在索引中的數(shù)據(jù)結(jié)構(gòu)是倒排索引妆绞,其結(jié)構(gòu)如下:

倒排索引(<word doc_i1 doc_i2 doc_ik ...>

舉例如下:

Word occurrence@DocID........
cat 6@Doc1 3@Doc2 4@Doc3... etc
Hot 9@Doc1 2@Doc3 10@Doc5... etc 

倒排索引是MapReduce的關(guān)鍵部分顺呕。我們需要解決的問題是將兩個文檔向量(也就是將要進(jìn)行比較的文檔)輸入到reducer中。

我們要考慮的是<Doc1, Doc3>的相似性括饶。如何獲得他們對應(yīng)的向量并傳給reducer株茶?

相當(dāng)簡單~

Mapper的輸出應(yīng)該是這樣的:

Key:<Document_one, Document_two> Value:<occurrence, occurrence>

所以對上面的兩個文檔,<Doc1, Doc3>對應(yīng)第一個word cat將是:

Key:<doc1, doc3> Value:<6, 3>

通過這樣的方法图焰,在reducer中启盛,你們會有這些值的一個list,對兩個文檔中出現(xiàn)的word的向量技羔,這就可以在reducer中計算相似度了僵闯。

當(dāng)然,也可以將occurrence改稱TF或者TF-IDF向量或者其他什么東西藤滥。這里的關(guān)鍵就是要得到正確的KEY-VALUE鳖粟。

在reducer這兒,你可以獲得:

Key: <doc1, doc3> Value: [<6, 4>, <9, 2>]

因此拙绊,余弦相似度可以直接通過doc1 (6, 9)doc3 (4, 2)點乘獲得:

(6*4)+(9*2)... etc for larger vectors

分母部分可以這樣計算:

sqrt(6^2 + 9^2) * sqrt(4^2 + 2^2) * ...

你可以在reducer中進(jìn)行這個計算向图,因為你有兩個文檔的向量泳秀。當(dāng)然在你的值計算完后,你可以以任何方式從reducer中輸出他們

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末榄攀,一起剝皮案震驚了整個濱河市嗜傅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌檩赢,老刑警劉巖吕嘀,帶你破解...
    沈念sama閱讀 223,207評論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異漠畜,居然都是意外死亡币他,警方通過查閱死者的電腦和手機(jī)坞靶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評論 3 400
  • 文/潘曉璐 我一進(jìn)店門憔狞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人彰阴,你說我怎么就攤上這事瘾敢。” “怎么了尿这?”我有些...
    開封第一講書人閱讀 170,031評論 0 366
  • 文/不壞的土叔 我叫張陵簇抵,是天一觀的道長。 經(jīng)常有香客問我射众,道長碟摆,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,334評論 1 300
  • 正文 為了忘掉前任叨橱,我火速辦了婚禮典蜕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘罗洗。我一直安慰自己愉舔,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 69,322評論 6 398
  • 文/花漫 我一把揭開白布伙菜。 她就那樣靜靜地躺著轩缤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪贩绕。 梳的紋絲不亂的頭發(fā)上火的,一...
    開封第一講書人閱讀 52,895評論 1 314
  • 那天,我揣著相機(jī)與錄音淑倾,去河邊找鬼馏鹤。 笑死,一個胖子當(dāng)著我的面吹牛踊淳,可吹牛的內(nèi)容都是我干的假瞬。 我是一名探鬼主播陕靠,決...
    沈念sama閱讀 41,300評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼脱茉!你這毒婦竟也來了剪芥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,264評論 0 277
  • 序言:老撾萬榮一對情侶失蹤琴许,失蹤者是張志新(化名)和其女友劉穎税肪,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體榜田,經(jīng)...
    沈念sama閱讀 46,784評論 1 321
  • 正文 獨居荒郊野嶺守林人離奇死亡益兄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,870評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了箭券。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片净捅。...
    茶點故事閱讀 40,989評論 1 354
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖辩块,靈堂內(nèi)的尸體忽然破棺而出蛔六,到底是詐尸還是另有隱情,我是刑警寧澤废亭,帶...
    沈念sama閱讀 36,649評論 5 351
  • 正文 年R本政府宣布国章,位于F島的核電站,受9級特大地震影響豆村,放射性物質(zhì)發(fā)生泄漏液兽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,331評論 3 336
  • 文/蒙蒙 一掌动、第九天 我趴在偏房一處隱蔽的房頂上張望四啰。 院中可真熱鬧,春花似錦坏匪、人聲如沸拟逮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽敦迄。三九已至,卻和暖如春凭迹,著一層夾襖步出監(jiān)牢的瞬間罚屋,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評論 1 275
  • 我被黑心中介騙來泰國打工嗅绸, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留脾猛,地道東北人。 一個月前我還...
    沈念sama閱讀 49,452評論 3 379
  • 正文 我出身青樓鱼鸠,卻偏偏與公主長得像猛拴,于是被迫代替她去往敵國和親羹铅。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,995評論 2 361

推薦閱讀更多精彩內(nèi)容