點(diǎn)互信息算法(PMI)
基本思想:是統(tǒng)計(jì)兩個(gè)詞語(yǔ)在文本中同時(shí)出現(xiàn)的概率,如果概率越大刑顺,其相關(guān)性就越緊密氯窍,關(guān)聯(lián)度越高。
PMI > 0蹲堂;兩個(gè)詞語(yǔ)是相關(guān)的狼讨;值越大,相關(guān)性越強(qiáng)柒竞。
PMI = 0政供;兩個(gè)詞語(yǔ)是統(tǒng)計(jì)獨(dú)立的,不相關(guān)也不互斥。
PMI < 0布隔;兩個(gè)詞語(yǔ)是不相關(guān)的离陶,互斥的。
從概率思想理解:
如果兩個(gè)事件不相關(guān)也不互斥衅檀,則同時(shí)發(fā)生的概率p(a,b)=p(a)*p(b)枕磁,此時(shí)p(a,b)/p(a)*p(b)=1,PMI(a,b)=0术吝;
如果兩個(gè)事件相關(guān)计济,則同時(shí)發(fā)生的概率p(a,b)>p(a)*p(b),此時(shí)p(a,b)/p(a)*p(b)>1排苍,PMI(a,b)>0沦寂;
如果兩個(gè)事件互斥,則同時(shí)發(fā)生的概率p(a,b)
情感傾向點(diǎn)互信息算法(SO-PMI)
基本思想是:選用一組褒義詞(Pwords)跟一組貶義詞(Nwords)作為基準(zhǔn)詞淘衙。若把一個(gè)詞語(yǔ)word1跟Pwords的點(diǎn)間互信息減去word1跟Nwords的點(diǎn)間互信息會(huì)得到一個(gè)差值传藏,就可以根據(jù)該差值判斷詞語(yǔ)word1的情感傾向。
SO-PMI(word1)> 0彤守;為正面傾向毯侦,即褒義詞
SO-PMI(word1) = 0;為中性傾向具垫,即中性詞
SO-PMI(word1) < 0侈离;為負(fù)面傾向,即貶義詞