觀點1:
http://blog.csdn.net/cjneo/article/details/45167223
1:樸素貝葉斯是生成模型,利用先驗概率饼灿,條件概率,最有得到后驗概率分布蒸其。
LR是判別模型敏释,通過在訓(xùn)練數(shù)據(jù)集上最大化P(y|x)判斷,不需要知道先驗概率和條件概率
2:樸素貝葉斯 基于特征相互獨立的假設(shè)摸袁,而LR則沒有此假設(shè)钥顽,如果數(shù)據(jù)獨立LR可以獲得較好的模型,如果數(shù)據(jù)不滿足條件獨立假設(shè)靠汁,則可以調(diào)整參數(shù)耳鸯,獲得較好的模型。
3:數(shù)據(jù)量較少的時候膀曾,可以使用樸素貝葉斯法县爬,因為先驗概率和條件概率都是通過統(tǒng)計得到的,可以在O(log(n))個樣本得到添谊。對于LR财喳,需要在整個參數(shù)空間進行線性搜索,需要O(n)個樣本斩狱。
觀點二:
相同點
Logistic regression和Naive bayes都是對特征的線性表達 # 耳高,只是區(qū)別在于兩者所fit的參數(shù)不同。
不同點
Logistic regression在有相關(guān)性feature上面學(xué)習(xí)得到的模型在測試數(shù)據(jù)的performance更好碌燕。也就是說,logistic regression在訓(xùn)練時继薛,不管特征之間有沒有相關(guān)性修壕,它都能找到最優(yōu)的參數(shù)。而在Naive bayes中遏考,由于我們給定特征直接相互獨立的嚴格設(shè)定慈鸠,在有相關(guān)性的feature上面學(xué)習(xí)到的權(quán)重同時變大或變小,它們之間的權(quán)重不會相互影響灌具。從這方面來說青团,如果能夠在對參數(shù)較好地控制,在損失項方面處理的很好的話咖楣,Logistic regression相對Naive bayes在應(yīng)用時更不會限制在特征工程(feature engineering)上面督笆。
Naive bayes的好處是我沒有優(yōu)化參數(shù)這一步,通過訓(xùn)練數(shù)據(jù)我直接得到一個counting table截歉,這些有助于并行化胖腾。
Andrew Ng和Michael Jordan在2001年發(fā)了一篇NIPS短文《 On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes 》烟零,他們把這兩個模型用在各種數(shù)據(jù)集上面進行測試瘪松,最后得到在小數(shù)據(jù)上面Naive bayes可以取得更好的效果咸作,隨著數(shù)據(jù)的增多、特征維度的增大宵睦,Logistic regression的效果更好记罚。這也是因為Naive bayes是生成模型,在有prior的情況下模型能夠把數(shù)據(jù)fit的更好壳嚎,而Logistic regression屬于生成模型桐智,目標驅(qū)動化,不去建模聯(lián)合概率烟馅,通過訓(xùn)練數(shù)據(jù)直接預(yù)測輸出说庭,因此在數(shù)據(jù)足夠多的情況下能夠得到更好一些的效果。
作者: Yong Jiang
文章出處: http://sunshiningjiang.github.io/