評價者之間的一致性--Kappas Inter-rater agreement Kappas
inter-rater reliability == inter-rater agreement == concordance
評價者之間的一致性的Kappa分數(shù)代表著在打分判斷中,他們有多少共識馋劈,有多一致。
Kappa分數(shù)處于0-1之間暑塑,具體地:
K | Interpretation |
---|---|
<0 | Poor agreement 不一致 |
0.0-0.20 | Slight agreement |
0.21-0.40 | Fair agreement |
0.41-0.60 | Moderate agreement |
0.61-0.80 | Substantial agreement |
0.81-1.0 | Almost perfect agreement |
Cohen's Kappa
Cohen's Kappa 計算了評分者之間的一致性胡桨。當評分者對同一項任務給出了相同的判斷或分數(shù)鸭廷,那么他們的一致性得到了體現(xiàn)。
Cohen’s Kappa 只能在以下的條件下使用:
- 兩個評價者分別對每個樣本進行評分
- 一個評價者對每個樣本進行兩次評分
Cohen's Kappa 計算
要注意的是枝恋,一般情況下每币,Cohen's Kappa 的計算背景是:有兩個評分者對每個樣本進行二分類
postive (rater A) | negative (rater A) | Total | |
---|---|---|---|
postive (rater B) | |||
negative (rater B) | |||
Total |
計算公式為:
其中, 代表評價者之間的相對觀察一致性(the relative observed agreement among raters)
代表偶然一致性的假設概率(the hypothetical probability of chance agreemnet)
例子
rater A和rater B對50張圖片進行分類琢歇,正類和負類兰怠。結果為:
- 20張圖片兩個評價者都認為是正類
- 15張圖片兩個評價者都認為是負類
- rater A認為25張圖片是正類,25張圖片是負類
- rater B 認為30張圖片是正類李茫,20張圖片是負類
postive (rater A) | negative (rater A) | Total | |
---|---|---|---|
postive (rater B) | 20 | 10 | 30 |
negative (rater B) | 5 | 15 | 20 |
Total | 25 | 25 | 50 |
Step1 :計算
Step2 :計算
Step3 :計算
代表fair agreement
Fleiss's Kappa
Fleiss's Kappa 是對 Cohen‘s Kappa 的擴展:
- 衡量三個或更多評分者的一致性
- 不同的評價者可以對不同的項目進行評分揭保,而不用像Cohen’s 兩個評價者需要對相同的項目進行評分
- Cohen's Kappa 的評價者是精心選擇和固定的,而Fleiss's Kappa 的評價者是從較大的人群中隨機選擇的
舉一個例子對 Fleiss's Kappa 的計算進行說明:14個評價者對10個項目進行1-5的評分魄宏,
1 | 2 | 3 | 4 | 5 | ||
---|---|---|---|---|---|---|
1 | 0 | 0 | 0 | 0 | 14 | 1.000 |
2 | 0 | 2 | 6 | 4 | 2 | 0.253 |
3 | 0 | 0 | 3 | 5 | 6 | 0.308 |
4 | 0 | 3 | 9 | 2 | 0 | 0.440 |
5 | 2 | 2 | 8 | 1 | 1 | 0.330 |
6 | 7 | 7 | 0 | 0 | 0 | 0.462 |
7 | 3 | 2 | 6 | 3 | 0 | 0.242 |
8 | 2 | 5 | 3 | 2 | 2 | 0.176 |
9 | 6 | 5 | 2 | 1 | 0 | 0.286 |
10 | 0 | 2 | 2 | 3 | 7 | 0.286 |
Total | 20 | 28 | 39 | 21 | 32 | 140 |
0.143 | 0.200 | 0.279 | 0.150 | 0.229 |
Step1 :計算 秸侣,以為例,評價者隨機打1分的概率
Step2 :計算 宠互,以為例,14個評價者對第2個任務達成共識的程度
Step3 :計算
代表fair agreement
[1] Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33(1):159–74
[2] http://www.pmean.com/definitions/kappa.htm
[3] https://www.statisticshowto.datasciencecentral.com/cohens-kappa-statistic/
[4] https://www.statisticshowto.datasciencecentral.com/fleiss-kappa/
[5] [https://github.com/amirziai/learning/blob/master/statistics/Inter-rater%20agreement%20kappas.ipynb](https://github.com/amirziai/learning/blob/master/statistics/Inter-rater agreement kappas.ipynb)
[6] https://blog.csdn.net/qq_31113079/article/details/76216611