隨機(jī)森林、EM晃跺、HMM揩局、LDA

隨機(jī)森林(Random Forest)是一種分類和回歸算法,它包含了多個(gè)決策樹哼审,形成一個(gè)森林谐腰,隨機(jī)森林的類別是所有決策樹分類回歸結(jié)果的眾數(shù)決定。

由于它優(yōu)點(diǎn)很多涩盾,適應(yīng)比較廣泛.

1十气、能夠處理高維數(shù)據(jù),不用做特征選擇春霍,自動(dòng)選出那些特征重要砸西。

2、訓(xùn)練速度快址儒,分類精度高芹枷。

3、能檢測到特征之間的相互影響莲趣。

4鸳慈、不會(huì)產(chǎn)生過擬合。



EM 期望最大化(Expectation-Maximization)喧伞,也叫最大似然估計(jì)走芋。它是一種參數(shù)估計(jì)方法。

基本思想是:參數(shù)的取值應(yīng)該是使隨機(jī)樣本出現(xiàn)的概率最大潘鲫。因此如果我們知道樣樣本的概率分布翁逞,就可以通過求使概率分布最大的參數(shù)值為最終取值。

參考文章1溉仑,已知100個(gè)男生的身高分布概率挖函,當(dāng)不知道他們的均值和方差,通過最大似然估計(jì)認(rèn)為浊竟,均值和方差應(yīng)該是使這個(gè)概率分布最大怨喘。

最大似然估計(jì)函數(shù)如下:

如果是連乘形式,可以求對數(shù)簡化為相加形式:

求解可以是求導(dǎo)數(shù)為0逐沙,即牛頓法或者梯度下降法(計(jì)算機(jī)中使用)哲思。



HMM,隱馬爾科夫模型吩案。HMM在自然語言處理領(lǐng)域應(yīng)用比較廣泛棚赔,如漢語分詞,詞性標(biāo)注徘郭,語音識別靠益。

典型的隱馬爾科夫模型,其下一個(gè)狀態(tài)只與當(dāng)前相關(guān)残揉,與其他因素不相關(guān)胧后。這樣雖然不太正確,可能舍去了很多重要信息抱环,但能簡化模型和計(jì)算量壳快,得出結(jié)果纸巷,因此實(shí)際中也經(jīng)常用。

參考一個(gè)經(jīng)典的HMM例子眶痰,見下圖瘤旨。

HMM能解決三個(gè)基本問題:

1、根據(jù)觀測序列和模型參數(shù)竖伯,求模型參數(shù)已知條件下的觀測序列后驗(yàn)概率存哲。

2、求觀測序列已知情況下的狀態(tài)序列最合理取值七婴。

3祟偷、如何調(diào)整模型參數(shù),使觀測序列后驗(yàn)概率取值最大打厘。




LDA(latent dirichlet allocation)叫主題模型修肠,應(yīng)用在圖像分類、文本分類婚惫、主題詞抽取氛赐。

是一個(gè)三層貝葉斯概率模型,包含詞先舷、主題艰管、文檔。

可以解決矩陣稀疏的問題蒋川。

是最簡單的話題模型(topic model)牲芋,話題模型就是發(fā)現(xiàn)大量文檔集合的主題的算法。

可以判斷兩個(gè)文檔的相似性和距離捺球。是基于主題模型的語義挖掘技術(shù)缸浦,能區(qū)別兩篇文章在語義上的區(qū)別,而非詞頻的區(qū)別氮兵。

主題模型常用算法有兩種:pLSA和LDA裂逐。更多內(nèi)容參考文章6.




1、http://www.cnblogs.com/openeim/p/3921835.html

2泣栈、http://www.cnblogs.com/skyme/p/4651331.html(HMM介紹)

3卜高、http://blog.csdn.net/app_12062011/article/details/50408664#t6(HMM在自然語言處理中的應(yīng)用詳細(xì)介紹)

4、http://www.52nlp.cn/hmm-learn-best-practices-and-cui-johnny-blog

5南片、http://blog.csdn.net/daringpig/article/details/8072794

6掺涛、http://blog.csdn.net/huagong_adu/article/details/7937616(LDA與TF-IDF的區(qū)別)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市疼进,隨后出現(xiàn)的幾起案子薪缆,更是在濱河造成了極大的恐慌,老刑警劉巖伞广,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拣帽,死亡現(xiàn)場離奇詭異疼电,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)减拭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進(jìn)店門澜沟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人峡谊,你說我怎么就攤上這事】裕” “怎么了既们?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長正什。 經(jīng)常有香客問我啥纸,道長,這世上最難降的妖魔是什么婴氮? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任斯棒,我火速辦了婚禮,結(jié)果婚禮上主经,老公的妹妹穿的比我還像新娘荣暮。我一直安慰自己,他們只是感情好罩驻,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布穗酥。 她就那樣靜靜地躺著,像睡著了一般惠遏。 火紅的嫁衣襯著肌膚如雪砾跃。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天节吮,我揣著相機(jī)與錄音抽高,去河邊找鬼。 笑死透绩,一個(gè)胖子當(dāng)著我的面吹牛翘骂,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播渺贤,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼雏胃,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了志鞍?” 一聲冷哼從身側(cè)響起瞭亮,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎固棚,沒想到半個(gè)月后统翩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仙蚜,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年厂汗,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了委粉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,814評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡娶桦,死狀恐怖贾节,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情衷畦,我是刑警寧澤栗涂,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站祈争,受9級特大地震影響斤程,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜菩混,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一忿墅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧沮峡,春花似錦疚脐、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至秘症,卻和暖如春照卦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背乡摹。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工役耕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人聪廉。 一個(gè)月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓瞬痘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親板熊。 傳聞我的和親對象是個(gè)殘疾皇子框全,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內(nèi)容