譯者按: 吳恩達(dá)和邁克爾喬丹的經(jīng)典合作之一,是當(dāng)年吳恩達(dá)在喬丹門下讀博時(shí)發(fā)表的压语,分類問題是機(jī)器學(xué)習(xí)最典型的問題吁朦,而樸素貝葉斯和邏輯回歸又是最基礎(chǔ)最常用的分類算法,兩位大神對此進(jìn)行了深入精到的分析履磨,對機(jī)器學(xué)習(xí)和AI的愛好者來說不可錯(cuò)過
作者:?
Andrew Y. Ng(吳恩達(dá))? ?蛉抓, ??Michael I. Jordan(邁克爾一喬丹)
?計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)系
加州大學(xué)伯克利分校
摘要
我們比較判別式和生成式學(xué)習(xí),以logistic回歸和樸素貝葉斯為代表剃诅。我們表明巷送,與廣泛持有的觀點(diǎn)(判別式分類器幾乎總是被優(yōu)先考慮的)相反,通常會(huì)有兩種不同的性能體系矛辕,即訓(xùn)練集大小增加笑跛,其中每個(gè)算法效果更好。這源于觀察聊品,在反復(fù)實(shí)驗(yàn)中證實(shí)飞蹂,盡管判別式學(xué)習(xí)具有較低的漸近誤差,但生成式分類器也可以更快地接近其(較高)漸近性誤差翻屈。
一陈哑、簡介
生成分類器學(xué)習(xí)輸入x和標(biāo)簽y的聯(lián)合概率p(x,y)的模型,并通過使用貝葉斯規(guī)則來計(jì)算p(ylx)惊窖,然后選擇最可能的標(biāo)簽y來進(jìn)行預(yù)測刽宪。 判別分類器直接對后驗(yàn)p(ylx)建模,或者從輸入x學(xué)習(xí)一個(gè)直接映射到類標(biāo)簽爬坑。 使用判別式而不是生成性分類器有幾個(gè)令人信服的原因纠屋,其中一個(gè)由Vapnik簡潔地闡述[6],即“應(yīng)該直接解決[分類]問題盾计,并且不會(huì)解決更普遍的問題作為中間步驟 [例如 作為建模p(xly)]售担。“ 事實(shí)上署辉,拋開計(jì)算問題和處理缺失數(shù)據(jù)等問題族铆,目前的共識似乎是,判別式分類幾乎總是被優(yōu)先于生成性分類哭尝。
另一個(gè)流行的民間智慧是需要的例子數(shù)量哥攘,擬合一個(gè)模型通常在模型的自由參數(shù)數(shù)量上大致是線性的。這對于VC的“眾多”模型的觀察具有理論基礎(chǔ)材鹦,維數(shù)大致是線性的或者至多是參數(shù)數(shù)量中的一些低階多項(xiàng)式(參見例如[1,3])逝淹,并且已知在VC維中判別性設(shè)置中的樣本復(fù)雜度是線性的[6]。
在本文中桶唐,我們從經(jīng)驗(yàn)和理論上研究這些信念的真實(shí)程度栅葡。 概率模型p(x,y)的一個(gè)參數(shù)族可以適合于優(yōu)化輸入和標(biāo)簽的聯(lián)合似然尤泽,或者適合于優(yōu)化條件似然p(ylx)欣簇,或者甚至適合于最小化0-1訓(xùn)練 通過對p(ylx)進(jìn)行閾值處理得到的誤差進(jìn)行預(yù)測。 給定根據(jù)第一準(zhǔn)則的分類器hGen擬合坯约,并且根據(jù)第二或第三準(zhǔn)則(使用相同的參數(shù)族模型)擬合模型hDis熊咽,我們稱hGen和hD為生成 - 區(qū)分對。 例如闹丐,如果p(xly)是高斯的且p(y)是多項(xiàng)式的横殴,則相應(yīng)的生成判別對是正態(tài)判別分析和邏輯回歸。 類似地卿拴,對于離散輸入的情況衫仑,眾所周知,樸素貝葉斯分類器和邏輯回歸形成了一個(gè)生成 - 區(qū)分對[4,5]巍棱。
為了比較生成性和判別式學(xué)習(xí),似乎很自然地關(guān)注這樣的對蛋欣。在本文中航徙,我們考慮樸素貝葉斯模型(用于離散和連續(xù)輸入)及其區(qū)分模擬,邏輯回歸/線性分類陷虎,并且顯示:(a)生成模型的確具有更高的漸近誤差訓(xùn)練樣例變得很大)到踏,但是(b)生成模型也可能比判別模型更快地逼近其漸近誤差 - 可能有許多訓(xùn)練樣例杠袱,它們的數(shù)量只是對數(shù)而不是線性的參數(shù)。這表明窝稿,并且我們的實(shí)證結(jié)果強(qiáng)烈支持 - 隨著訓(xùn)練樣本數(shù)量的增加楣富,可能會(huì)有兩種截然不同的表現(xiàn)方式,第一種方式是生成模型已經(jīng)接近其漸近誤差伴榔,因此表現(xiàn)更好纹蝴,第二種情況是判別模型接近其較低的漸近誤差并做得更好。
二踪少、預(yù)演
我們考慮一個(gè)二元分類任務(wù)塘安,并從離散數(shù)據(jù)的情況開始。假設(shè)X = {O援奢,l} n是n維輸入空間兼犯,我們假設(shè)二進(jìn)制
簡單的輸入(泛化沒有困難)。 讓輸出標(biāo)簽為Y = {T集漾,F(xiàn)}切黔,并且在X X Y上存在一個(gè)聯(lián)合分布V. 繪制了訓(xùn)練集S = {x(i),y(i)}?1具篇。 生成貝葉斯分類器使用S來計(jì)算概率的估計(jì)值p(xiIY)和p(y)p(xi IY)和p(y)纬霞,如下所示:
(對于p(y = b),也是類似的)栽连,其中#s { - }計(jì)算出現(xiàn)的次數(shù)事件在訓(xùn)練集S中险领。這里,設(shè)定l =°對應(yīng)于采用經(jīng)驗(yàn)估計(jì)概率秒紧,并且l更傳統(tǒng)地被設(shè)置為正值绢陌,例如1,這對應(yīng)于使用概率的拉普拉斯平滑熔恢。 為了對測試示例x進(jìn)行分類脐湾,當(dāng)且僅當(dāng)以下數(shù)量為正數(shù)時(shí),樸素貝葉斯分類器hGen:X r- + Y預(yù)測hGen(x)= T:
在連續(xù)輸入的情況下叙淌,除了我們現(xiàn)在假設(shè)X = [O秤掌,l] n并且設(shè)p(xilY = b)被參數(shù)化為具有參數(shù){ti ly = b的單變量高斯分布和 如果注意到j(luò)1,而不是if鹰霍,則取決于y)闻鉴。 參數(shù)通過最大可能性進(jìn)行擬合,例如{ti ly = b是訓(xùn)練集中標(biāo)簽y = b的所有示例的第i個(gè)坐標(biāo)的經(jīng)驗(yàn)平均值茂洒。 請注意孟岛,此方法也等同于假定對角線協(xié)方差矩陣的正態(tài)判別分析。 在下面的續(xù)集中,我們還讓J.tree = b = E [XiIY = b]和a; = Ey [Var(xi ly)]是“真”的均值和方差(不管數(shù)據(jù)是否為高斯分布)渠羞。
在離散和連續(xù)的情況下斤贰,眾所周知,樸素貝葉斯的判別式是邏輯回歸次询。 該模型具有參數(shù)[荧恍,8,OJ屯吊,并且假定p(y = Tlx;送巡,8,O)= 1 /(1 + exp( - 雌芽,8Tx-0))授艰。 給定一個(gè)測試?yán)齲,當(dāng)且僅當(dāng)線性判別函數(shù)
是積極的世落。 作為一個(gè)判別模型淮腾,參數(shù)[(3,()]可以適合于最大化訓(xùn)練集上的條件或全部條件屉佳,或者最小化 其中1 { - }是指示器函數(shù)(I {True} = 1谷朝,I {False} = 0)0-1訓(xùn)練誤差L?= ll {hois(x(i))1-y(i)}。 在錯(cuò)誤度量為0-1分類錯(cuò)誤的情況下武花,我們認(rèn)為后者可以更真實(shí)地用于判別式學(xué)習(xí)的“精神”圆凰,盡管前者也經(jīng)常被用作后者的計(jì)算效率近似值。 我們將在很大程度上忽略這兩種版本的歧視性學(xué)習(xí)之間的差異体箕,并且在濫用術(shù)語的情況下专钉,我們會(huì)松散地使用術(shù)語“邏輯回歸”來指代,盡管我們的正式分析將集中在后一種方法上累铅。
最后跃须,讓1i是所有線性分類器的族(從X到Y(jié)的映射); 并給出一個(gè)分類器h:X I -t y,將其泛化誤差定義為c(h)= Pr(x娃兽,y)?v [h(x)1-y]菇民。
三、分析和算法
當(dāng)D使得兩類遠(yuǎn)離線性分離時(shí)投储,邏輯回歸和樸素貝葉斯都不可能做得好第练,因?yàn)閮烧叨际蔷€性分類器。 因此玛荞,為了獲得非平凡的結(jié)果娇掏,將這些算法的性能與它們的漸近誤差進(jìn)行比較是最有趣的(參見不可知論學(xué)習(xí)設(shè)置)。 更確切地說勋眯,讓hGen婴梧,oo是樸素貝葉斯分類器的人口版本; 即hGen壁涎,oo是具有參數(shù)p(xly)= p(xly),p(y)= p(y)的樸素貝葉斯分類器志秃。 同樣,讓hOis是邏輯回歸的人口版本嚼酝。 接下來的兩個(gè)命題是完全簡單的浮还。
命題1讓hGen和hDis是任何生成歧視的分類器,binoo和hdis是它們的漸近/種群版本闽巩。 然后lc(hDis钧舌,oo):Sc(hGen,oo)涎跨。
命題2讓hDis為n維邏輯回歸洼冻。 然后高概率c(hois):S c(hois,oo)+ 0(J?log?)
因此隅很,對于c(hOis):S c(hOis撞牢,oo)+ EO以高概率保持(這里EO> 0是某個(gè)固定常量),只需選擇m = O(n)即可叔营。
命題1表明屋彪,漸近地判別式邏輯回歸的誤差小于生成樸素貝葉斯的誤差。 這很容易表明绒尊,由于c(hDis)收斂于infhE1-lc(h)(其中1i是所有線性分類器的類別)畜挥,因此它必須漸近地不比樸素貝葉斯挑選的線性分類器差。 這個(gè)命題也為廣泛認(rèn)為判別式分類器比生成式分類器更好的觀點(diǎn)提供了基礎(chǔ)婴谱。
命題2是另一個(gè)標(biāo)準(zhǔn)結(jié)果蟹但,并且是一個(gè)直接的應(yīng)用Vapnik一致收斂于邏輯回歸,并使用1i具有VC維n的事實(shí)谭羔。 命題的第二部分指出华糖,判別式學(xué)習(xí)的樣本復(fù)雜性 - 即需要接近漸近誤差的例子的數(shù)量 - 至多是n的數(shù)量級。 請注意口糕,最壞情況下的樣本復(fù)雜度也受n階[6]的限制缅阳。
因此,判別式學(xué)習(xí)的圖片相當(dāng)清楚:錯(cuò)誤收斂于最佳線性分類器的收斂景描,并且收斂在n個(gè)例子的順序之后十办。?
生成式學(xué)習(xí)如何?特別是樸素貝葉斯分類器的情況超棺? 我們從以下引理開始向族。
引理3
任何101,8>°和任何l 2:°都是固定的。 假設(shè)對于一些固定的Po> 0棠绘,我們有Po:s:p(y = T):s:1 - Po件相。 讓m = 0((1 / Ei)log(n / 8))再扭。 然后概率至少為1 - 8:
1.在離散輸入的情況下,IjJ(XiIY = b)-p(xilY = b)1:s:101和IjJ(y =b) - p(y = b)I:s:101夜矗,對于所有i = 1泛范,...,n和bEY紊撕。
2.在連續(xù)輸入的情況下罢荡,IPi ly = b -f-li ly = b I:s:101,laT-O“TI:s:101对扶,并且IjJ(y = b)-p(y = b) :s:101区赵,所有i = 1,...浪南,n和bEY笼才。
證明(草圖)÷缭洌考慮離散情況骡送,現(xiàn)在讓l =°。設(shè)101:s:po / 2絮记。通過Chernoff界限各谚,概率至少為1 - 81 = 1 - 2exp(-2Eim),正例的比例將在p(y = T)的101范圍內(nèi)到千,這意味著IjJ(y = b) - p(y = b)1:s:101昌渤,我們至少有1m正數(shù)和1m負(fù)數(shù)示例,其中I = Po-101 = 0(1)憔四。所以再次通過Chernoff界限膀息,對于具體的i,b了赵,IjJ(XiIY = b)-p(xilY = b)1> 101的機(jī)會(huì)最多為82 = 2exp(-2Ehm)潜支。由于存在2n個(gè)這樣的概率,聯(lián)盟限制的錯(cuò)誤總發(fā)生概率最多為81 + 2n82柿汛。用81和8 / s定義代替冗酿,我們看到為了保證81 + 2n82:s:8,只要m如前所述即可络断。最后裁替,平滑(l> 0)對這些概率至多添加一個(gè)小的O(l / m)擾動(dòng),并使用與上述相同的參數(shù)(比如說101/2)而不是101貌笨,并且認(rèn)為這個(gè)O / m)擾動(dòng)至多為101/2(這是因?yàn)閙至少為1 / Ei)弱判,再次給出結(jié)果。對于連續(xù)情況的結(jié)果用基于切爾諾夫邊界的論證(以及假設(shè)Xi E [0,1])被類似地證明锥惋。
因此昌腰,在n個(gè)樣本中开伏,只有對數(shù)而不是線性的樣本,生成分類器hGen的參數(shù)均勻接近它們的漸近線
hGen中的值遭商,oo固灵。因此,很容易得出結(jié)論劫流,c(hGen)怎虫,即錯(cuò)誤生成的樸素貝葉斯分類器也趨于其漸近值c(hGen,oo)
在這個(gè)例子之后困介,暗示只需要0(log n)個(gè)例子來適應(yīng)a樸素貝葉斯模型。我們將很快建立一些簡單的條件
這種直覺確實(shí)是正確的蘸际。請注意座哩,這意味著即使樸素貝葉斯收斂于c(hGen,oo)與logistic回歸相比更高的漸近誤差
c:(hDis粮彤,oo)根穷,它也可能比O(log n)快得多O(n),
訓(xùn)練例子导坟。顯示c(hGen)方法c(hGen屿良,oo)的一種方式是通過顯示參數(shù)'收斂意味著hGen很可能會(huì)做出同樣的預(yù)測
hGen,oo惫周〕揪澹回想一下,hGen通過對判別函數(shù)進(jìn)行閾值處理來進(jìn)行預(yù)測lGen在(2)中定義递递。設(shè)lGen喷橙,oo為相應(yīng)的判別函數(shù)
由hGen使用,oo登舞。在每個(gè)例子上贰逾,lGen和lGen都落在同一個(gè)地方零的邊,hGen和hGen菠秒,oo會(huì)做出同樣的預(yù)測疙剑。而且,只要
lGen践叠,oo(x)的概率相當(dāng)高言缤,遠(yuǎn)離零,那么lGen(x)是一個(gè)很小的lGen的擾動(dòng)oo(x)通常也會(huì)與lGen oo(x)在同一邊禁灼。
定理4定義G(T)= Pr(x轧简,y)?v [(lGen,oo(x)E [O匾二,Tn] A y = T)V(lG en哮独,oo(X)E [-Tn拳芙,O ] AY = F)]。 假設(shè)對于一些固定的Po> 0皮璧,我們有Po:s:p(y = T):s:1 - Po舟扎,并且Po:s:P(Xi = 11Y = b):s:1 - Po對于所有的i,b離散輸入)或O“T 2:Po(在連續(xù)的情況下)然后以高概率悴务,
證明(草圖)睹限。 c(hGen) - c(hGen,oo)受上述機(jī)會(huì)的上界限hGen讯檐,oo正確地對隨機(jī)選擇的示例進(jìn)行分類羡疗,但hGen將其錯(cuò)誤分類。
引理3確保hGen的所有參數(shù)在hGen的所有參數(shù)O(j(log n)/ m)內(nèi)的概率很高别洪。這又意味著叨恨,lGen中的總和中的n + 1項(xiàng)(如等式2)中的每個(gè)項(xiàng)都在lGen,oo中對應(yīng)項(xiàng)的O(j(1ogn)/ m)之內(nèi)挖垛,因此IlGen(x) -lGen痒钝,oo(x)1:SO(nj(1ogn)/ m)。假設(shè)T = O(j(logn)/ m)痢毒,我們就可以看出送矩,只有當(dāng)y = T且lGen時(shí),hGen哪替,oo才有可能是正確的栋荸,而hGen可能是錯(cuò)誤的(x,y) X)E [0凭舶,Tn](因此有可能是lGen蒸其,oo(X)::::: 0,lGen(x):S 0)库快,或者如果y = F和lGen摸袁,oo(X)E [-Tn,0]义屏。這個(gè)概率恰好是G(T)靠汁,因此上界c(hGen) - c(hGen,oo)闽铐。 d
定理中的關(guān)鍵量是G(T)蝶怔,當(dāng)T很小時(shí)它必須很小,以使邊界不平凡兄墅。注G(T)以上界為界Prx [lGen踢星,oo(x)E [-Tn,Tn]] - lGen隙咸,oo(X)(一個(gè)隨機(jī)變量沐悦,其分布由x“”V引起)接近零的概率成洗。要獲得關(guān)于這些隨機(jī)變量的縮放的直覺,請考慮以下幾點(diǎn):
命題5假設(shè)藏否,對于至少一個(gè)0(1)分?jǐn)?shù)的特征我(我=1瓶殃,...,n)副签,對于一些IP(Xi = 11Y = T)-P(Xi = 11Y = F)I :::::'Y 固定'Y> 0(或者在連續(xù)輸入的情況下遥椿,IJLi ly = T -JLi ly = FI :::::'Y)。 然后E [lGen淆储,oo(x)ly = T] = O(n)和-E [lGen冠场,oo(x)ly = F] = O(n)。
因此本砰,只要類標(biāo)簽給出有關(guān)0(1)分?jǐn)?shù)的信息特征(或者不太正式碴裙,只要大多數(shù)特征與類標(biāo)簽“相關(guān)”),IlGen的期望值oo(X)I將是O(n)灌具。 這個(gè)命題很容易通過證明條件(例如)事件y = T,以lGen譬巫,oo(x)(如等式(2)中的總和中的每個(gè)項(xiàng)咖楣,但用fi代替fi) 非負(fù)的期望(由KL散度的非負(fù)性),此外0(1)部分的期望值遠(yuǎn)離零芦昔。
命題5保證IlGen诱贿,oo(x)1有很大的期望,但我們要想綁定G實(shí)際上是稍微強(qiáng)一點(diǎn)咕缎,那就是隨機(jī)的變量IlGen珠十,oo(x)1進(jìn)一步大/遠(yuǎn)離零,具有高概率凭豪。那里有幾種方法可以獲得足夠的條件來確保G很小焙蹭。一獲得松散界限的方法是通過切比雪夫不等式。對于其余的這個(gè)討論嫂伞,讓我們?yōu)榱撕唵味[含地說明一個(gè)測試事件示例x具有標(biāo)簽T.切比雪夫不等式意味著Pr [lGen孔厉,oo(x):SE [lGen,oo(X)] - t]:S Var(lGen帖努,oo(x))/ t2∽颍現(xiàn)在,lGen拼余,oo(X)是n個(gè)隨機(jī)數(shù)之和變量(忽略涉及先驗(yàn)p(y)的術(shù)語)污桦。如果(仍然以y為條件),這n個(gè)隨機(jī)變量是獨(dú)立的(即如果“樸素貝葉斯假設(shè)”假設(shè)xi在條件上獨(dú)立于給定的y匙监,保持)凡橱,那么它的方差是O(n);即使n個(gè)隨機(jī)變量不完全獨(dú)立小作,方差可能也是如此仍然不會(huì)大于0(n)(甚至可能更小,取決于相關(guān)性的跡象)梭纹,并且至多是O(n2)躲惰。所以,如果E [lGen变抽,oo(x)ly = T] = an(as將通過命題5來保證)對于一些> 0础拨,通過設(shè)置t =(a-T)n,Chebyshev不等式給出了Pr [lGen绍载,oo(x):S Tn]:S 0(1 /(a-T)2n1 /)一致地界定诡宗,那么我們也是
有G(T)= O(T)。無論如何击儡,我們對定理4也有如下推論塔沃。
推論6假設(shè)定理4的條件成立,并假設(shè)G(T):S Eo / 2 + 對于滿足F(T) - + 0的函數(shù)F(T)(與n無關(guān))的F(T)為T - + 0阳谍,
和一些固定的EO> O.那么對于€(hGen):S c(hGen蛀柴,oo)+ EO保持高
圖1:來自VCI Machine Learning的數(shù)據(jù)集的15個(gè)實(shí)驗(yàn)的結(jié)果庫。 繪圖的泛化誤差與m(平均超過1000個(gè)隨機(jī)數(shù)
火車/測試分割)矫夯。 虛線是邏輯回歸; 實(shí)線是樸素貝葉斯鸽疾。
請注意,前面的討論暗示了推論的先決條件確實(shí)存在于樸素貝葉斯(和命題5)的假設(shè)情況下對于任何常數(shù)fa训貌,只要n足夠大以至于fa ::::: exp(-O(o:2n))(對于有界限的Var(lGen制肮,oo(x))情況也是如此,并且限制性更強(qiáng)的fa ::::: O(I /(o:2n17)))递沪。 這也意味著這些(后者也要求T)> 0)是漸近樣本復(fù)雜度為0(log n)的充分條件豺鼻。
四、實(shí)驗(yàn)
邏輯回歸算法具有較低的漸近誤差款慨,生成的樸素貝葉斯分類器也可以更快地收斂到其(較高)漸近誤差儒飒。因此,隨著訓(xùn)練樣本數(shù)量m的增加檩奠,人們會(huì)期望生成樸素貝葉斯最初做的更好约素,但對于區(qū)分邏輯回歸最終趕上并很可能超過樸素貝葉斯的性能。為了測試這些預(yù)測笆凌,我們對15個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)圣猎,其中8個(gè)連續(xù)輸入,7個(gè)離散輸入乞而,來自VCI機(jī)器學(xué)習(xí)庫2.這些實(shí)驗(yàn)的結(jié)果如圖1所示送悔。我們發(fā)現(xiàn)理論預(yù)測出人意料地好。有一些logistic回歸的表現(xiàn)沒有趕上樸素貝葉斯的情況,但這主要是在特別小的數(shù)據(jù)集中觀察到的欠啤,在這些數(shù)據(jù)集中荚藻,m估計(jì)不能大到足以讓我們觀察到大規(guī)模邏輯回歸的預(yù)期優(yōu)勢m限制。
五洁段、討論
Efron [2]也分析了邏輯回歸和正態(tài)判別分析(for連續(xù)的投入)应狱,并得出結(jié)論,前者只是漸近的略微(1/3 - 1/2倍)統(tǒng)計(jì)效率較低祠丝。這與我們的形成鮮明對比結(jié)果疾呻,一個(gè)關(guān)鍵的區(qū)別是,而不是假設(shè)P(xly)是高斯的一個(gè)對角協(xié)方差矩陣(就像我們所做的那樣)写半,Efron考慮了P(xly)的情況建模為具有完全信任矩陣的高斯岸蜗。在這種情況下,估計(jì)協(xié)方差矩陣是奇異的叠蝇,如果我們在n個(gè)訓(xùn)練樣本中的線性少于璃岳,那么正態(tài)判別分析不能比學(xué)習(xí)快得多邏輯回歸在這里。第二個(gè)重要的區(qū)別是Efron的考慮只有P(xly)確實(shí)是高斯的特例悔捶。這樣的漸近在一般情況下比較不是很有用铃慷,因?yàn)槲ㄒ豢赡艿慕Y(jié)論,如果€(hDis蜕该,oo)<€(hGen犁柜,oo)是邏輯回歸是優(yōu)越的算法。
相反蛇损,正如我們以前所看到的那樣赁温,這是非漸近的情況觀察到有趣的“雙機(jī)制”行為坛怪。實(shí)用的分類算法通常涉及某種形式的正則化特定的邏輯回歸通秤倨耄可以在實(shí)踐中通過技術(shù)改進(jìn)如通過L1約束收縮參數(shù),強(qiáng)加一個(gè)裕度約束在可分離的情況下袜匿,或各種形式的平均更啄。這種正則化技術(shù)可以被看作是改變模特家庭,但是居灯,他們在很大程度上是這樣正交于本文的分析祭务,這是基于特別考察的清晰的生成歧視模型配對案例。通過開發(fā)更清晰了解純生殖和歧視的條件方法最成功怪嫌,我們應(yīng)該能夠更好地設(shè)計(jì)混合分類器享受最廣泛的條件范圍內(nèi)的最佳性能义锥。最后,雖然我們的討論集中在樸素貝葉斯和邏輯回歸岩灭,但是直接將分析擴(kuò)展到其他幾種模型拌倍,包括生成歧視通過使用固定結(jié)構(gòu),有界貝葉斯生成P(xly)網(wǎng)絡(luò)模型(其中樸素貝葉斯是一個(gè)特例)。
致謝
我們感謝Andrew McCallum提供有用的對話柱恤。吳恩達(dá)得到了微軟研究院獎(jiǎng)學(xué)金支持数初。 這項(xiàng)工作也得到了英特爾的資助
References
[1] M. Anthony and P. Bartlett. Neural Network Learning: Theoretical Foundations. Cambridge
University Press, 1999.
[2] B. Efron. The efficiency of logistic regression compared to Normal Discriminant Analysis.
Journ. of the Amer. Statist. Assoc., 70:892- 898, 1975.
[3] P. Goldberg and M. Jerrum. Bounding the VC dimension of concept classes parameterized
by real numbers. Machine Learning, 18:131-148, 1995.
[4] G.J. McLachlan. Discriminant Analysis and Statistical Pattern Recognition. Wiley,
New York, 1992.
[5] Y. D. Rubinstein and T. Hastie. Discriminative vs. informative learning. In Proceedings
of the Third International Conference on Knowledge Discovery and Data Mining, pages
49- 53. AAAI Press, 1997.
[6] V. N. Vapnik. Statistical Learning Theory. John Wiley & Sons, 1998.