評分者信度分析-kappa統計

來源：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3900052/

Kappa是用來評估測試中評分者評分的可靠程度，評分者評分的重要性在他代表研究中所蒐集數據方法的一致性，尤其是研究中有多個評分者時，評分標準的一致程度，也代表評分者訊息的可靠信。

那為何會發生這樣的問題呢？所謂了可靠性有兩種，第一個是有多個資料收集者的內部可靠性 (interrater reliability)，還有單一資料收集者的評估者內部的可靠性 (intrarater reliability)。當面對完全相同的情況時，每位收集資料者是否會記錄下完全相同的數據紀錄，這就會關係到收集數據的一致信與可靠信。

為了評估收集資料的可靠信，統計學家Jacob Cohen提出了Cohen's kappa來計算收集評分數據的一致程度。

百分比一致度 (Percent agreement)

百分比的一制度的計算方式為所有變數的數量 (Var#)除以有差異的變數量 (Difference)，這種方式不僅限於兩個評分者，可以推廣到多的評分者

figure from: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3900052/

Cohen’s kappa

Cohen's kappa可用於評估多個評估者間或是單個評分者內的可靠性

$\kappa=\frac{Pr(a)-Pr(e)}{1-Pr(e)}$

Pr(a)代表實際觀察的一致性，Pr(e)則是代表機會的一致性

Pr(e)的計算方式如下

$Expected(Chance) Agreement = \frac{\frac{cm^1\times rm^1}{n} + \frac{cm^2\times rm^2}{n}}{n}$

$cm^1$ 代表第一列的邊緣

$cm^2$ 代表第二列的邊緣

$rm^1$ 代表第一行的邊緣

$rm^2$ 代表第二行的邊緣

$n$ 觀察值的數量

以下圖為例

$Pr(e) = \frac{\frac{157*150}{222}+\frac{65*72}{222}}{222} \approx 0.583$

$Pr(a) = \frac{147+62}{222} \approx 0.94$

$\kappa = \frac{0.94 - 0.583}{1 - 0.583} \approx 0.85$

下圖為$\kappa$值換算後的可靠程度，值越高代表一致程度越高

信心區間

最後是信心區間的換算，如果是95%的信心區間，則是使用1.96為常數

$\kappa - 1.96\times SE_\kappa to \kappa + 1.96\times SE_\kappa$

$SE_\kappa = \sqrt[]{\frac{p(1-p)}{n(1-p_e)^2}}$

$SE_\kappa = \sqrt[]{\frac{0.94(1-0.94}{222(1-0.57)^2}} = \sqrt[]{\frac{0.056}{41.04}} = 0.037$

所以信心區間為

$0.85 - 1.96 \times 0.037 to 0.85-1.96 \times 0.037$

$0.777 to 0.922$

結論

$\kappa$只能說明評分者分數的一致性，但是還是會有可能會有解釋上的問題，例如：登記數值只有1跟0，評分者可能會有猜測的問題發生，這並無法從百分比的一致性中觀測出來，再來是$\kappa$值也無法評估評分者的獨立性，在解釋結果時仍需小心解釋。

multiplex的運動生物力學隨筆

數學式

2021年6月23日星期三