隨機(jī)森林(Random Forest)是一種分類和回歸算法,它包含了多個(gè)決策樹哼审,形成一個(gè)森林谐腰,隨機(jī)森林的類別是所有決策樹分類回歸結(jié)果的眾數(shù)決定。
由于它優(yōu)點(diǎn)很多涩盾,適應(yīng)比較廣泛.
1十气、能夠處理高維數(shù)據(jù),不用做特征選擇春霍,自動(dòng)選出那些特征重要砸西。
2、訓(xùn)練速度快址儒,分類精度高芹枷。
3、能檢測到特征之間的相互影響莲趣。
4鸳慈、不會(huì)產(chǎn)生過擬合。
EM 期望最大化(Expectation-Maximization)喧伞,也叫最大似然估計(jì)走芋。它是一種參數(shù)估計(jì)方法。
基本思想是:參數(shù)的取值應(yīng)該是使隨機(jī)樣本出現(xiàn)的概率最大潘鲫。因此如果我們知道樣樣本的概率分布翁逞,就可以通過求使概率分布最大的參數(shù)值為最終取值。
參考文章1溉仑,已知100個(gè)男生的身高分布概率挖函,當(dāng)不知道他們的均值和方差,通過最大似然估計(jì)認(rèn)為浊竟,均值和方差應(yīng)該是使這個(gè)概率分布最大怨喘。
最大似然估計(jì)函數(shù)如下:
如果是連乘形式,可以求對數(shù)簡化為相加形式:
求解可以是求導(dǎo)數(shù)為0逐沙,即牛頓法或者梯度下降法(計(jì)算機(jī)中使用)哲思。
HMM,隱馬爾科夫模型吩案。HMM在自然語言處理領(lǐng)域應(yīng)用比較廣泛棚赔,如漢語分詞,詞性標(biāo)注徘郭,語音識別靠益。
典型的隱馬爾科夫模型,其下一個(gè)狀態(tài)只與當(dāng)前相關(guān)残揉,與其他因素不相關(guān)胧后。這樣雖然不太正確,可能舍去了很多重要信息抱环,但能簡化模型和計(jì)算量壳快,得出結(jié)果纸巷,因此實(shí)際中也經(jīng)常用。
參考一個(gè)經(jīng)典的HMM例子眶痰,見下圖瘤旨。
HMM能解決三個(gè)基本問題:
1、根據(jù)觀測序列和模型參數(shù)竖伯,求模型參數(shù)已知條件下的觀測序列后驗(yàn)概率存哲。
2、求觀測序列已知情況下的狀態(tài)序列最合理取值七婴。
3祟偷、如何調(diào)整模型參數(shù),使觀測序列后驗(yàn)概率取值最大打厘。
LDA(latent dirichlet allocation)叫主題模型修肠,應(yīng)用在圖像分類、文本分類婚惫、主題詞抽取氛赐。
是一個(gè)三層貝葉斯概率模型,包含詞先舷、主題艰管、文檔。
可以解決矩陣稀疏的問題蒋川。
是最簡單的話題模型(topic model)牲芋,話題模型就是發(fā)現(xiàn)大量文檔集合的主題的算法。
可以判斷兩個(gè)文檔的相似性和距離捺球。是基于主題模型的語義挖掘技術(shù)缸浦,能區(qū)別兩篇文章在語義上的區(qū)別,而非詞頻的區(qū)別氮兵。
主題模型常用算法有兩種:pLSA和LDA裂逐。更多內(nèi)容參考文章6.
1、http://www.cnblogs.com/openeim/p/3921835.html
2泣栈、http://www.cnblogs.com/skyme/p/4651331.html(HMM介紹)
3卜高、http://blog.csdn.net/app_12062011/article/details/50408664#t6(HMM在自然語言處理中的應(yīng)用詳細(xì)介紹)
4、http://www.52nlp.cn/hmm-learn-best-practices-and-cui-johnny-blog
5南片、http://blog.csdn.net/daringpig/article/details/8072794
6掺涛、http://blog.csdn.net/huagong_adu/article/details/7937616(LDA與TF-IDF的區(qū)別)