來自:?https://blog.csdn.net/bbbeoy/article/details/71249316?
背景:為什么要做平滑處理?
零概率問題位迂,就是在計算實例的概率時,如果某個量x予颤,在觀察樣本庫(訓(xùn)練集)中沒有出現(xiàn)過囤官,會導(dǎo)致整個實例的概率結(jié)果是0。在文本分類的問題中蛤虐,當一個詞語沒有在訓(xùn)練樣本中出現(xiàn)党饮,該詞語調(diào)概率為0,使用連乘計算文本出現(xiàn)概率時也為0驳庭。這是不合理的刑顺,不能因為一個事件沒有觀察到就武斷的認為該事件的概率是0。
為了解決零概率的問題饲常,法國數(shù)學(xué)家拉普拉斯最早提出用加1的方法估計沒有出現(xiàn)過的現(xiàn)象的概率蹲堂,所以加法平滑也叫做拉普拉斯平滑。
假定訓(xùn)練樣本很大時贝淤,每個分量x的計數(shù)加1造成的估計概率變化可以忽略不計柒竞,但可以方便有效的避免零概率問題。