TaskThree-20190307

特征選擇

1、TF-IDF原理
　　TF-IDF(Term Frequency-Inverse Document Frequency)是一種統(tǒng)計(jì)方法茵汰，用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度蹂午。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加，但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降豆胸。
　　在一份給定的文件里配乱，詞頻 (Term Frequency, TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。這個(gè)數(shù)字通常會(huì)被歸一化（分子一般小于分母區(qū)別于IDF）搬泥，以防止它偏向長的文件。（同一個(gè)詞語在長文件里可能會(huì)比短文件有更高的詞頻尉尾，而不管該詞語重要與否燥透。）
　　　　 $TF(w) = \frac{在某一類中詞條w出現(xiàn)的次數(shù)}{該類中所有的詞條數(shù)目}$
　　逆向文件頻率 (Inverse Document Frequency, IDF)是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF肢藐，可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目吱韭，再將得到的商取對(duì)數(shù)得到。
　　　　 $IDF(w) = log(\frac{語料庫的文檔總數(shù)}{包含詞條w的文檔數(shù)})$
　　上面的公式已經(jīng)可以使用了痘煤，但是在一些特殊的情況會(huì)有一些小問題猿规，比如某一個(gè)生僻詞在語料庫中沒有，這樣我們的分母為0蘸拔， IDF沒有意義了。所以常用的IDF我們需要做一些平滑调窍，使語料庫中沒有出現(xiàn)的詞也可以得到一個(gè)合適的IDF值陨晶。平滑的方法有很多種帝璧，最常見的IDF平滑后的公式之一為：
　　　　 $IDF(w) = log\frac{N+1}{N(w)+1} + 1$
　　有了IDF的定義，我們就可以計(jì)算某一個(gè)詞的TF-IDF值了：
　　　　 $TF-IDF(w) = TF(w)*IDF(w)$

2褐耳、互信息
　　一般地渴庆，兩個(gè)離散隨機(jī)變量 X 和 Y 的互信息可以定義為：
　　　　 $I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) }, \,\!$
p(x,y)是X和Y的聯(lián)合概率分布函數(shù)，p(x)和p(y)分別是X和Y的邊緣概率分布函數(shù)刃滓。
　　在連續(xù)隨機(jī)變量的情形下耸弄，求和被替換成了二重積分：
　　　　 $I(X;Y) = \int_Y \int_X p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) } \; dx \,dy$
p(x,y)是X和Y的聯(lián)合概率密度函數(shù)，p(x)和p(y)分別是X和Y的邊緣概率密度函數(shù)砰诵。如果對(duì)數(shù)以 2 為基底捌显，互信息的單位是bit。
　　直觀上理肺，互信息度量 X 和 Y 共享的信息：它度量知道這兩個(gè)變量其中一個(gè)击罪，對(duì)另一個(gè)不確定度減少的程度。例如媳禁，如果 X 和 Y 相互獨(dú)立竣稽，則知道 X 不對(duì) Y 提供任何信息霍弹，反之亦然娃弓，所以它們的互信息為零。在另一個(gè)極端台丛，如果 X 是 Y 的一個(gè)確定性函數(shù)挽霉，且 Y 也是 X 的一個(gè)確定性函數(shù)，那么傳遞的所有信息被 X 和 Y 共享：知道 X 決定 Y 的值侠坎，反之亦然。因此他嫡，在此情形互信息與 Y（或 X）單獨(dú)包含的不確定度相同庐完，稱作 Y（或 X）的熵。而且署咽，這個(gè)互信息與 X 的熵和 Y 的熵相同生音。（這種情形的一個(gè)非常特殊的情況是當(dāng) X 和 Y 為相同隨機(jī)變量時(shí)。）
　　互信息是 X 和 Y 的聯(lián)合分布相對(duì)于假定 X 和 Y 獨(dú)立情況下的聯(lián)合分布之間的內(nèi)在依賴性慕匠。于是互信息以下面方式度量依賴性：I(X; Y) = 0 當(dāng)且僅當(dāng)X 和 Y 為獨(dú)立隨機(jī)變量域醇。從一個(gè)方向很容易看出：當(dāng) X 和 Y 獨(dú)立時(shí)，p(x,y) = p(x) p(y)锅铅，因此：
　　　　 $\log{ \left( \frac{p(x,y)}{p(x)\,p(y)} \right) } = \log 1 = 0. \,\!$
此外减宣，互信息是非負(fù)的（即 I(X;Y) ≥ 0），而且是對(duì)稱的（即 I(X;Y) = I(Y;X)）贼邓。
互信息又可以等價(jià)地表示成：
$\begin{align} I(X;Y) & {} = H(X) - H(X|Y) \\ & {} = H(Y) - H(Y|X) \\ & {} = H(X) + H(Y) - H(X,Y) \\ & {} = H(X,Y) - H(X|Y) - H(Y|X) \end{align}$
其中H(X)和H(Y)是邊緣熵，H(X|Y) 和 H(Y|X) 是條件熵女坑，而 H(X,Y) 是 X 和 Y 的聯(lián)合熵统舀。注意到這組關(guān)系和并集、差集和交集的關(guān)系類似绰筛，于是用Venn圖表示描融。

在互信息定義的基礎(chǔ)上使用琴生不等式衡蚂，我們可以證明 I(X;Y) 是非負(fù)的，因此

\ H(X) \ge H(X|Y)

年叮。這里我們給出

I(X;Y) = H(Y) - H(Y|X)

的詳細(xì)推導(dǎo):

\begin{align} I(X;Y) & {} = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\\ & {} = \sum_{x,y} p(x,y) (\log \frac{p(x,y)}{p(x)}) - \sum_{x,y} p(x,y) \log p(y) \\ & {} = \sum_{x,y} p(x)p(y|x) \log p(y|x) - \sum_{x,y} p(x,y) \log p(y) \\ & {} = \sum_x p(x) \left(\sum_y p(y|x) \log p(y|x)\right) - \sum_y \log p(y) \left(\sum_x p(x,y)\right) \\ & {} = -\sum_x p(x) H(Y|X=x) - \sum_y \log p(y) p(y) \\ & {} = -H(Y|X) + H(Y) \\ & {} = H(Y) - H(Y|X). \\ \end{align}

3只损、TF-IDF代碼應(yīng)用
在scikit-learn中七咧，有兩種方法進(jìn)行TF-IDF的預(yù)處理。第一種方法是在用CountVectorizer類向量化之后再調(diào)用TfidfTransformer類進(jìn)行預(yù)處理爆存。

from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  

corpus=["I come to China to travel", 
    "This is a car polupar in China",          
    "I love tea and Apple ",   
    "The work is to write some papers in science"] 

vectorizer=CountVectorizer()

transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))  
print(tfidf)

第二種方法是直接用TfidfVectorizer完成向量化與TF-IDF預(yù)處理蝗砾。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf2 = TfidfVectorizer()
re = tfidf2.fit_transform(corpus)
print(re)

參考鏈接：
https://www.cnblogs.com/pinard/p/6693230.html
https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF

最后編輯于：2019.03.07 17:36:54

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末悼粮，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子菜循，更是在濱河造成了極大的恐慌申尤，老刑警劉巖子眶，帶你破解...
沈念sama閱讀 222,865評(píng)論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件序芦，死亡現(xiàn)場離奇詭異，居然都是意外死亡渴杆，警方通過查閱死者的電腦和手機(jī)宪塔，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,296評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來比搭，“玉大人南誊，你說我怎么就攤上這事〕簦” “怎么了？”我有些...
開封第一講書人閱讀 169,631評(píng)論 0贊 364
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長重挑。經(jīng)常有香客問我，道長蟆湖，這世上最難降的妖魔是什么玻粪？我笑而不...
開封第一講書人閱讀 60,199評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮伦仍，結(jié)果婚禮上很洋，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好官脓，可當(dāng)我...
茶點(diǎn)故事閱讀 69,196評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布涝焙。她就那樣靜靜地躺著，像睡著了一般赤兴。火紅的嫁衣襯著肌膚如雪隧哮。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,793評(píng)論 1贊 314
城市分裂傳說
那天陨帆，我揣著相機(jī)與錄音采蚀，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛矢洲，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播责静，決...
沈念sama閱讀 41,221評(píng)論 3贊 423
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼盖桥，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了腰鬼？” 一聲冷哼從身側(cè)響起塑荒，我...
開封第一講書人閱讀 40,174評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎彼硫，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拧篮，經(jīng)...
沈念sama閱讀 46,699評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡串绩，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,770評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了志笼。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片把篓。...
茶點(diǎn)故事閱讀 40,918評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖紊浩，靈堂內(nèi)的尸體忽然破棺而出疗锐，到底是詐尸還是另有隱情，我是刑警寧澤滑臊，帶...
沈念sama閱讀 36,573評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布雇卷，位于F島的核電站鬓椭，受9級(jí)特大地震影響关划，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜裤翩，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,255評(píng)論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一调榄、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧臼疫，春花似錦扣孟、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,749評(píng)論 0贊 25
一樁弒父案鸽斟，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽拔创。三九已至，卻和暖如春富蓄，著一層夾襖步出監(jiān)牢的瞬間剩燥，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,862評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工立倍，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留灭红，地道東北人。一個(gè)月前我還...
沈念sama閱讀 49,364評(píng)論 3贊 379
代替公主和親
正文我出身青樓口注，卻偏偏與公主長得像变擒，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子寝志，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,926評(píng)論 2贊 361

TaskThree-20190307

特征選擇

推薦閱讀更多精彩內(nèi)容