今天在看邏輯回歸算法的時(shí)候,對(duì)其原理有點(diǎn)困惑财异,便去晚上找了找前輩的博客倘零。
邏輯回歸算法是基于最大似然估計(jì)的。
最大似然估計(jì)是概率論里的知識(shí)戳寸。然后就找到了這一篇帖子呈驶,前前后后看了兩遍,終于明白了疫鹊。最大似然估計(jì)和最大后驗(yàn)概率估計(jì)的區(qū)別在于:有無(wú)先驗(yàn)概率袖瞻,或者說先驗(yàn)概率是否為1。
就舉這個(gè)帖子中拋硬幣的例子來(lái)說明拆吆。
首先要知道P(x|θ)的意思:
輸入有兩個(gè):x表示某一個(gè)具體的數(shù)據(jù)聋迎;θ表示模型的參數(shù)。
如果θ是已知確定的枣耀,x是變量霉晕,這個(gè)函數(shù)叫做概率函數(shù)(probability function),它描述對(duì)于不同的樣本點(diǎn)x捞奕,其出現(xiàn)概率是多少牺堰。(就是我們已經(jīng)知道拋硬幣只有兩面,如果硬幣質(zhì)量均勻颅围,就拋一次伟葫,樣本空間是{正面,反面}院促,那么請(qǐng)問出現(xiàn)正面的概率是多少筏养?0.5)
如果x是已知確定的,θ是變量一疯,這個(gè)函數(shù)叫做似然函數(shù)(likelihood function), 它描述對(duì)于不同的模型參數(shù),出現(xiàn)x這個(gè)樣本點(diǎn)的概率是多少夺姑。(就是我們已經(jīng)拋完硬幣了墩邀,拋了十次,其中正面出現(xiàn)7次盏浙,那么根據(jù)這個(gè)結(jié)果請(qǐng)問拋硬幣出現(xiàn)正面的概率是多少眉睹,才最可能得到我們現(xiàn)有的實(shí)驗(yàn)結(jié)果(十次出現(xiàn)七次正面)荔茬?0.7)
所以重點(diǎn)來(lái)了
根據(jù)最大似然估計(jì)的思想
我們要求出合適的θ讓P(x|θ)盡可能的大,那么θ等于多少的時(shí)候竹海,十次出現(xiàn)七次正面的情況最可能呢慕蔚?算來(lái)算去,發(fā)現(xiàn)θ=0.7斋配。
但是我們是人啊孔飒,我們是有思想的,一個(gè)硬幣就正反面艰争,我們的認(rèn)知都是正面反面出現(xiàn)的概率各一半坏瞄,結(jié)果求出個(gè)θ=0.7,這不合理啊甩卓。
于是最大后驗(yàn)概率估計(jì)出現(xiàn)了
我們帶著先驗(yàn)(主觀色彩)去求這個(gè)θ鸠匀,讓P(x0|θ)P(θ)最大,其中P(x0|θ)就是我們上面看到的公式逾柿,P(θ)就是我們的先驗(yàn)(我們認(rèn)為出現(xiàn)正面的概率是0.5)了缀棍,我們要求出一個(gè)既符合實(shí)驗(yàn)結(jié)果,又符合我們觀念的θ机错,那么爬范,最后求出的θ就在0.5到0.7之間(這也算是種妥協(xié))。