列聯(lián)表
理解聯(lián)合概率贮缅、邊際概率與條件概率從列聯(lián)表開始战秋。
列聯(lián)表是常見的用于描述類別變量間關(guān)系的形式。
上面是一個2X2的列聯(lián)表版姑,存在兩個變量柱搜,如果存在多個二分變量,任意兩個變量便可組成一個2X2的列聯(lián)表剥险。多個變量之間可以組成多重列聯(lián)表聪蘸。列聯(lián)表涉及三種類型的概率分布:聯(lián)合概率(Joint Probability),邊際概率(Marginal Probability)和條件概率(Conditional Probability).
聯(lián)合概率? 邊際概率和條件概率之概念理解
假設(shè)有1000個人,兩個變量表制,這里用A健爬、B事件表示,兩種狀態(tài)(是=1么介、否=0)娜遵。
聯(lián)合概率指兩個以上事件同時發(fā)生的概率,記作P(AB)夭拌。表中的每個單元格的計數(shù)和概率即表示2種不同事件同時發(fā)生的情況魔熏,計數(shù)代表1000人中在兩個事件屬于同一種狀態(tài)所占的人數(shù)。聯(lián)合概率以第一個狀態(tài)(A=1,B=1)為例,聯(lián)合概率P(A=1
B=1)=306/1000=0.306鸽扁。
邊際概率有行與列兩種蒜绽,行或列的邊際概率行或列聯(lián)合概率之和。比如P(A=1)=P(A=1B=1)+P(A=1
B=0)=0.306+0.287=0.593
條件概率指的是基于A事件發(fā)生或B事件發(fā)生的概率桶现,記作P(B|A)=P(AB)/P(A)=N(AB)/N(A),注:此N(AB)與表里的N(AB)不是同一個躲雅,前者指的是屬于同一種狀態(tài)的數(shù)目,后者只是一個總數(shù)的表達方式骡和。
通俗的講相赁,條件概率就是屬于某一變量的某一特定類別的個體在另一變量各類別的反應(yīng)情況相寇。例如:在事件A上選“是=1”的個體在事件B的兩個選項1和0上的分布情況;或者在事件B上選“否=0”的個體在事件A的兩個選項1和0上的分布情況钮科。
以上表中P(B=1|A=1)為例唤衫,基于A事件發(fā)生B事件發(fā)生的概率
P(B=1|A=1)=P(A=1B=1)/P(A=1)=N(A=1,B=1)/N(A=1)=306/593=0.516
以上表中P(A=1|B=1)為例,基于B事件發(fā)生A事件發(fā)生的概率
P(A=1|B=1)=P(A=1B=1)/P(B=1)=N(A=1,B=1)/N(B=1)=306/515=0.516
如果A的條件分布概率在B的各個水平相等绵脯,說明兩個變量統(tǒng)計獨立佳励。兩個變量統(tǒng)計獨立等價于聯(lián)合概率等于邊際概率之積,即P(A=xB=y)=P(A=x)*P(B=y)蛆挫。
列聯(lián)表統(tǒng)計獨立性檢驗最常用的是皮爾遜卡方和似然比檢驗赃承。這里就不贅述了。