simhash的中文實(shí)現(xiàn)(python)

最近工作上需要處理文本相似度的問題,一共5萬多個文檔森渐;
第一步做入,是先是要進(jìn)行顆粒度較粗的,發(fā)現(xiàn)基本相似的文檔同衣,進(jìn)行基本的 “聚類”竟块;
第二步,針對相似的文檔耐齐,然后進(jìn)行詳細(xì)的比較浪秘;

經(jīng)過調(diào)研,發(fā)現(xiàn)google的simhash是在顆粒度較粗的方面埠况,進(jìn)行文本相似度比較的較好的方案耸携;

一. 何為simhash

關(guān)于什么是simhash,網(wǎng)上學(xué)院派的介紹還是很多的辕翰,核心思想就是夺衍,對文本進(jìn)行分詞,并統(tǒng)計(jì)詞頻(相當(dāng)于權(quán)重)喜命,然后沟沙,進(jìn)行對每個詞進(jìn)行hash操作,并將結(jié)果按二進(jìn)制位乘以權(quán)重壁榕;然后將所有結(jié)果矛紫,按位相加,統(tǒng)計(jì)出文本的“指紋”护桦。
此處以一個例子進(jìn)行介紹更為形象:

  1. 假設(shè)含衔,需要進(jìn)行simhash的文本為:“我很想要打游戲,但是女朋友會生氣!”贪染;
  2. 首先缓呛,就是對文本進(jìn)行分詞操作,使用結(jié)巴分詞的全分詞模式杭隙,結(jié)果為:['我', '很', '想要', '打游戲', '游戲', '但是', '女朋友', '朋友', '會生', '生氣']哟绊;
  3. 然后,進(jìn)行詞頻統(tǒng)計(jì)痰憎,得到:{'會生': 1, '但是': 1, '女朋友': 1, '很': 1, '想要': 1, '我': 1, '打游戲': 1, '朋友': 1, '游戲': 1, '生氣': 1};
  4. 然后票髓,對以上每個詞進(jìn)行 HASH操作,比如md5铣耘,比如洽沟,'會生'的md5是 f3ab426bf0c05aa49cd0903c31adcb38,然后蜗细,以二進(jìn)制位的方式裆操,進(jìn)行處理,如果 bit == 1炉媒,則 為 1x1踪区;如果,bit == 0吊骤,則 為-1x1缎岗;
  5. 計(jì)算完,每一個詞之后白粉,將所有的結(jié)果按位相加传泊,并生成唯一的HASH,結(jié)果為:1459185014329402212鸭巴;

二. python上的實(shí)現(xiàn)

首先或渤,python是有現(xiàn)成的simhash的包的,包名奕扣,就是這個名字薪鹦;
直接執(zhí)行pip install simhash即可;
剛開始看惯豆,這是針對英文的池磁,所以,想去搜搜有沒有中文方面現(xiàn)成的楷兽,找了找沒有地熄,于是就去看看simhash的源碼,看看對中文的支持如何芯杀;

結(jié)果:simhash“表面”上對中文的支持不好端考,是因?yàn)樗闹形姆衷~是完全一個個字的分解雅潭;

但是,這完全不影響對simhash包的使用却特,simhash支持分詞完的列表作為輸入數(shù)據(jù)扶供,所以,完全可以使用jieba分詞之后裂明,在使用simhash進(jìn)行計(jì)算椿浓;

PS:可以看看simhash的實(shí)現(xiàn)代碼,很簡潔

三. 例子

例子就很簡單了:

import jieba
from simhash import Simhash

words1 = jieba.lcut('我很想要打游戲闽晦,但是女朋友會生氣扳碍!', cut_all=True)
words2 = jieba.lcut('我很想要打游戲,但是女朋友非常生氣仙蛉!', cut_all=True)

print(Simhash(words1).distance(Simhash(words2))) 

#輸出:6笋敞,因?yàn)槎涛谋臼褂胹imhash的話,文字稍微有些改動荠瘪,還是挺明顯的液样,大家可以用長文本嘗試

四. simhash的核心源碼

# 說明:self.f 為simhash的長度;
#            self.value 為當(dāng)前實(shí)例的simhash值巧还;
#            self.hashfunc 為計(jì)算hash的函數(shù),默認(rèn)是md5坊秸;

# 計(jì)算文本的hash值
def build_by_features(self, features): 
    """
    `features` might be a list of unweighted tokens (a weight of 1
                will be assumed), a list of (token, weight) tuples or
                a token -> weight dict.
    """
    v = [0] * self.f
    masks = [1 << i for i in range(self.f)]  #生成從1位到f位的mashs值麸祷,用于每個位的匹配操作
    if isinstance(features, dict):
        features = features.items()
    # h是計(jì)算的hash值, w是權(quán)重(詞頻)
    for f in features:
        if isinstance(f, basestring):
            h = self.hashfunc(f.encode('utf-8'))
            w = 1
        else:
            assert isinstance(f, collections.Iterable)
            h = self.hashfunc(f[0].encode('utf-8'))
            w = f[1]
        for i in range(self.f):
            v[i] += w if h & masks[i] else -w  # 位操作褒搔,位值為1阶牍,則為w,位值為0星瘾,則為-w走孽;
    ans = 0
    for i in range(self.f):
        if v[i] > 0:
            ans |= masks[i]  # 合并所有計(jì)算結(jié)果
    self.value = ans

# 計(jì)算兩個hash值得距離
def distance(self, another):
    assert self.f == another.f
    x = (self.value ^ another.value) & ((1 << self.f) - 1)
    ans = 0
    while x:
        ans += 1
        x &= x - 1
    return ans
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市琳状,隨后出現(xiàn)的幾起案子磕瓷,更是在濱河造成了極大的恐慌,老刑警劉巖念逞,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件困食,死亡現(xiàn)場離奇詭異,居然都是意外死亡翎承,警方通過查閱死者的電腦和手機(jī)硕盹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來叨咖,“玉大人瘩例,你說我怎么就攤上這事啊胶。” “怎么了垛贤?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵焰坪,是天一觀的道長。 經(jīng)常有香客問我南吮,道長琳彩,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任部凑,我火速辦了婚禮露乏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘涂邀。我一直安慰自己瘟仿,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布比勉。 她就那樣靜靜地躺著劳较,像睡著了一般。 火紅的嫁衣襯著肌膚如雪浩聋。 梳的紋絲不亂的頭發(fā)上观蜗,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天,我揣著相機(jī)與錄音衣洁,去河邊找鬼墓捻。 笑死,一個胖子當(dāng)著我的面吹牛坊夫,可吹牛的內(nèi)容都是我干的砖第。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼环凿,長吁一口氣:“原來是場噩夢啊……” “哼梧兼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起智听,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤羽杰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后到推,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體忽洛,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年环肘,在試婚紗的時候發(fā)現(xiàn)自己被綠了欲虚。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡悔雹,死狀恐怖复哆,靈堂內(nèi)的尸體忽然破棺而出欣喧,到底是詐尸還是另有隱情,我是刑警寧澤梯找,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布唆阿,位于F島的核電站,受9級特大地震影響锈锤,放射性物質(zhì)發(fā)生泄漏驯鳖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一久免、第九天 我趴在偏房一處隱蔽的房頂上張望浅辙。 院中可真熱鬧,春花似錦阎姥、人聲如沸记舆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泽腮。三九已至,卻和暖如春衣赶,著一層夾襖步出監(jiān)牢的瞬間诊赊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工府瞄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留碧磅,地道東北人。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓摘能,卻偏偏與公主長得像,于是被迫代替她去往敵國和親敲街。 傳聞我的和親對象是個殘疾皇子团搞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容