產品經理識算法(一):余弦相似度

這系列文章會以連載形式呈現(xiàn)嫩絮,后面會不定時更新秽澳,旨在和大家一起分享學習相關的算法泻骤。

關于各個產品中的算法漆羔,像 CSDN 等技術博客都有介紹,總結下來有以下幾點:

  • 代碼形式
  • 解釋的層面和角度偏技術
  • 缺乏實例

這就是我寫這系列文章的動機狱掂,希望通過實例和通俗易懂的語言來解釋算法的邏輯和具體的應用演痒。

本文的結構如下:

  1. 余弦相似度的數(shù)學表達式
  2. 公式解讀
  3. 應用實例
  4. 優(yōu)缺點

數(shù)學表達式

假設平面存在向量 a 和向量 b,由向量的點積公式可得倆向量的夾角:


夾角余弦

將向量 a趋惨、b 賦予坐標嫡霞,如:a(x1,y1),b(x2,y2),代入上面公式每辟,得到:

二維

將向量 a敏沉、b 由平面推廣到多維空間上(有相關論文已經證明推廣到多維空間集侯,公式仍然成立),得到:

多維

公式解讀

數(shù)學上曾撤,這些公式很好理解,只是簡單的代換轉化晕粪,那么余弦相似度是怎么引用到產品上的呢挤悉?這里有個思維的轉換:我們先把文本當作是一個向量,里面出現(xiàn)的詞頻數(shù)量當作上述公式中多維向量的坐標巫湘。運用上面的公式就可以算出兩個文本的相似程度装悲;具體我們看一下下面的例子。

應用實例

文本1:“產品經理”尚氛;文本2:“數(shù)據(jù)產品經理和項目經理”诀诊,現(xiàn)在用上面的公式計算文本1和文本2的相似度。
我們首先將文本1和文本2進行分詞(關于分詞阅嘶,后面的文章會介紹)属瓣,文本1分詞后:“產品/經理”载迄;文本2分詞后:“數(shù)據(jù)/產品/經理/和/項目/經理”。分詞完成后抡蛙,將分好的詞形成并集得到{數(shù)據(jù)护昧,產品,經理粗截,和惋耙,項目}。我們把文本1和文本2分別命名為向量 A 和向量 B 熊昌,接下來計算 A绽榛、B 的坐標;并集中的詞一共有5個浴捆,那么這5個詞分別在文本1和文本2中出現(xiàn)了多少次很容易得出來蒜田,形成以下這個表格

詞頻數(shù)量

將這些詞在文本中出現(xiàn)的次數(shù)定義為該向量的坐標就有:

A(0,1选泻,1冲粤,0,0)

B(1页眯,1梯捕,2,1窝撵,1)

那么傀顾,代入上面的公式為


代入后公式

如果一模一樣為100%的話,那么75%這個數(shù)值就可以來衡量文本1和文本2的相似度碌奉,其實通過字面意思短曾,我們也可以判斷兩個文本是很相似的,無論數(shù)據(jù)產品經理赐劣、產品經理嫉拐、項目經理在某些環(huán)境下,其實就是同一個人??魁兼。

優(yōu)缺點

在分析優(yōu)缺點的時候婉徘,我們先看一看余弦相似度的應用場景:

  • 文本本身對字或者詞的順序不敏感,可以應用咐汞。比喻“蛋炒飯”和“飯炒蛋”盖呼、“王者榮耀”和“榮耀王者”等等。
  • 篇幅大化撕,字數(shù)多的文本几晤,一篇文章,一篇論文植阴,一本小說等等锌仅,可以應用章钾。如果兩篇文章的相似度很高,就說明兩篇文章的用詞很多是重復的热芹,存在抄襲行為贱傀;還記得大學時候編造論文字數(shù)的日子嗎,經常會自己去驗重伊脓,對的沒錯府寒,就是用這個原理啦!报腔!

優(yōu)點:

  • 操作簡單株搔,不需要很復雜的處理,分詞后得出詞頻纯蛾,就可以計算
  • 短文本纤房,長文本都可以使用
  • 軟文、新聞翻诉、論文等領域都可以使用炮姨,日頭條,*云音樂等等推薦應用運用了這種思維碰煌。

缺點:

  • 對順序敏感的文本不適用舒岸。像年號等等,如:“二零一八年”和“二一零八年”芦圾;“數(shù)據(jù)產品”和“產品數(shù)據(jù)”等似度是100%蛾派,其實字面意思看得出,這兩個文本表達的意思完全不同个少。
  • 重復字詞較多的文本洪乍。如某個領導對你說:“產品!數(shù)據(jù)數(shù)據(jù)據(jù)數(shù)據(jù)數(shù)據(jù)夜焦!”和“產品產品產品產品壳澳!數(shù)據(jù)!”兩個文本的交集就是其并集糊探,相似度為100%,但是表達的測重點是不一樣的河闰。

一個算法只是一個模型科平,需要人工運營團隊不斷完善,因為不結合環(huán)境以及語義只靠算法判斷相似性對用戶是不負責任的行為姜性。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末瞪慧,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子部念,更是在濱河造成了極大的恐慌弃酌,老刑警劉巖氨菇,帶你破解...
    沈念sama閱讀 211,265評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異妓湘,居然都是意外死亡查蓉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,078評論 2 385
  • 文/潘曉璐 我一進店門榜贴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來豌研,“玉大人,你說我怎么就攤上這事唬党【楣玻” “怎么了?”我有些...
    開封第一講書人閱讀 156,852評論 0 347
  • 文/不壞的土叔 我叫張陵驶拱,是天一觀的道長霜浴。 經常有香客問我,道長蓝纲,這世上最難降的妖魔是什么阴孟? 我笑而不...
    開封第一講書人閱讀 56,408評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮驻龟,結果婚禮上温眉,老公的妹妹穿的比我還像新娘。我一直安慰自己翁狐,他們只是感情好类溢,可當我...
    茶點故事閱讀 65,445評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著露懒,像睡著了一般闯冷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上懈词,一...
    開封第一講書人閱讀 49,772評論 1 290
  • 那天蛇耀,我揣著相機與錄音,去河邊找鬼坎弯。 笑死纺涤,一個胖子當著我的面吹牛,可吹牛的內容都是我干的抠忘。 我是一名探鬼主播撩炊,決...
    沈念sama閱讀 38,921評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼崎脉!你這毒婦竟也來了拧咳?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,688評論 0 266
  • 序言:老撾萬榮一對情侶失蹤囚灼,失蹤者是張志新(化名)和其女友劉穎骆膝,沒想到半個月后祭衩,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 44,130評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡阅签,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,467評論 2 325
  • 正文 我和宋清朗相戀三年掐暮,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片愉择。...
    茶點故事閱讀 38,617評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡劫乱,死狀恐怖,靈堂內的尸體忽然破棺而出锥涕,到底是詐尸還是另有隱情衷戈,我是刑警寧澤,帶...
    沈念sama閱讀 34,276評論 4 329
  • 正文 年R本政府宣布层坠,位于F島的核電站殖妇,受9級特大地震影響,放射性物質發(fā)生泄漏破花。R本人自食惡果不足惜谦趣,卻給世界環(huán)境...
    茶點故事閱讀 39,882評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望座每。 院中可真熱鬧前鹅,春花似錦、人聲如沸峭梳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,740評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽葱椭。三九已至捂寿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間孵运,已是汗流浹背秦陋。 一陣腳步聲響...
    開封第一講書人閱讀 31,967評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留治笨,地道東北人驳概。 一個月前我還...
    沈念sama閱讀 46,315評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像旷赖,于是被迫代替她去往敵國和親顺又。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,486評論 2 348

推薦閱讀更多精彩內容