別錯過,卡方檢驗實用總結!

別錯過,卡方檢驗實用總結!

通常情況下,

卡方檢驗是研究分類資料與分類資料之間關係的分析方法

,如性別和是否戴隱形眼鏡之間的關係。卡方檢驗通常會涉及卡方值和P值兩個名詞術語。卡方值與P值有對應關係,P值小於0。05則說明有差異存在,即性別與是否戴隱形眼鏡之間有聯絡。在具體差異分析的基礎上,進一步分析不同性別樣本戴隱形眼鏡的百分比,例如,男性戴隱形眼鏡的百分比為30%,而女性戴隱形眼鏡的百分比為50%,說明女性樣本戴隱形眼鏡的比例要明顯高於男性樣本。

除此之外,卡方檢驗(準確說是卡方擬合優度檢驗)還可以

檢驗定類資料的分佈特徵是否與預期保持一致。

比如本來預計男性和女性的比例各佔一半(50%),但收集回來的資料卻是45%和55%,那麼收集回來的資料是否就明顯的偏差預期(50%)呢?此時也可以使用卡方檢驗。

卡方檢驗在實際使用過程中,還可用於問卷多選題的分析(也稱作多重響應分析),比如多選題的選擇比例是否均勻,也或者單選題和多選題之間的差異關係情況如何呢,均可使用卡方檢驗進行分析。下表格為卡方檢驗的實際使用型別說明:

別錯過,卡方檢驗實用總結!

卡方檢驗實際應用

1卡方檢驗理論說明

通常理解的卡方檢驗,其檢驗目的在於定類和定類資料的差異。比如性別和是否戴眼鏡的關係,性別和是否戴眼鏡都是定類資料,因此可以研究性別和是否戴眼鏡的比例是否有明顯的差異性。

除此之外,還有一種卡方檢驗(準確說是卡方擬合優度檢驗),其目的是研究定類資料各選項的分佈比例上是否有著差異性,比如性別男和女預期是50%和50%,那事實上的樣本是否明顯的偏離這一比例呢,這種即卡方擬合優度檢驗。

在問卷研究裡面,有很多的多選題,多選題各項的比例是否均勻呢?那麼就可以利用卡方擬合優度檢驗進行分析(SPSSAU預設提供);如果想研究單選題和多選題的選擇差異關係,那麼這種是研究定類資料和定類資料的差異性,SPSSAU預設也提供卡方檢驗結果。

1卡方檢驗理論說明

別錯過,卡方檢驗實用總結!

卡方檢驗SPSSAU操作

1) 絕大多數情況下,均是直接研究定類和定類資料差異,SPSSAU共有兩個地方可實現,分別是通用方法裡面的“交叉(卡方)”和醫學研究裡面的卡方檢驗。如果是彙總資料,即加權資料,此時只能使用醫學研究裡面的卡方檢驗,同時,如果希望提供更多詳細的資料指標,比如自由度,列聯絡數,Cramer V等,均需要使用醫學研究裡面的卡方檢驗。

2) 如果是進行卡方擬合優度檢驗,即研究定類資料選項佔比差異,此時應該使用醫學研究裡面的卡方擬合優度檢驗。操作如下圖所示:

別錯過,卡方檢驗實用總結!

預設SPSSAU會假定選項的選擇比例完全一致,即男和女的比例是50%和50%。如果預期是40%和60%,那麼可對“期望值設定(預設相等)”這個按鈕進行設定,如下圖:

別錯過,卡方檢驗實用總結!

3) 如果是問卷研究裡面的多選題操作,直接使用SPSSAU問卷研究裡面對應多選題的按鈕即可,比如下圖:

別錯過,卡方檢驗實用總結!

如果是希望研究多選題的選擇比例和選擇差異情況,那麼直接使用‘多選題’;

如果是研究單選題和多選題的差異情況,使用‘單選-多選’;

如果是研究多選題和單選題的差異情況,使用‘多選-單選’;

如果是研究多選題和多選題的差異情況,使用‘多選-多選’;

特別說明一點:多選題的資料格式非常特殊,一個選項一個標題,比如5個選項就有5個標題,而且需要使用數字標識‘選中’還是‘沒有選中’,一般情況下數字1表示‘選中’,數字0表示‘沒有選中’。

如果原始資料使用數字表示選中,null值表示沒有選中,那麼需要把null值全部替換成數字0,可使用SPSSAU資料處理->異常值功能進行批次處理,把null值即缺失值填補成數字0即可。

別錯過,卡方檢驗實用總結!

2 如何使用SPSSAU進行卡方檢驗

使用卡方檢驗時,資料格式非常重要,因為SPSSAU支付加權和非加權兩種格式,而且有時想利用卡方檢驗檢視相關關係情況,此時還需要看一些新的指標,比如列聯絡數、Cramer V或Lambda指標等。當然還會有一些其它問題,彙總如下圖:

別錯過,卡方檢驗實用總結!

2 如何使用SPSSAU進行卡方檢驗

SPSSAU共支援2種資料格式,分別是常規資料格式(非加權格式)和加權格式,如下說明:

別錯過,卡方檢驗實用總結!

上圖為常規格式(即非加權格式),一行代表一個樣本,一列代表一個屬性,將全部的原始資料資訊列出即可,比如有100個樣本,那麼就有100行資料。

在醫學/實驗研究時,很多時候只有彙總資料,即帶加權項的資料,比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,資料資訊只有6種組別的彙總項(即加權項),分別是40,10,20,30,20,50;相當於總共有170個樣本,如果是使用常規格式(即非加權格式),此時應該有170行;但加權格式則只需要6行即可表示,如下圖:

別錯過,卡方檢驗實用總結!

在使用SPSSAU醫學研究-》卡方檢驗,也或者醫學研究-》卡方擬合優度檢驗時,SPSSAU均支援加權資料格式。一旦資料是加權格式,那麼分析時需要把‘加權項’放到對應的框中即可。

3 卡方檢驗相關問題?

在SPSSAU的醫學研究->卡方檢驗裡面,如果資料是2*2格式,比如性別為男和女2個選項,學歷分為本科以下和本科以上共2個選項。那麼此時為2*2的組合,此時spssau預設會提供fisher卡方檢驗值。

當然,SPSSAU還會提供一些其它的卡方指標值,包括pearson卡方,連續校正卡方,各選擇單元格的期望值和比例值等中間過程值等等(當然具體應該使用那一個,SPSSAU會自動進行判斷和選擇),下圖僅為中間過程值等。

別錯過,卡方檢驗實用總結!

3 卡方檢驗相關問題?

如果希望看出差異的幅度,而不僅僅是看是否有差異。除了使用肉眼進行分析,即對比選擇百分比的具體值情況進行分析外。還可以使用效應量(effect size),effect size值通常包括Phi、列聯絡數、校正列聯絡數、Cramer V和Lambda等。此五個係數的意義都是檢視差異幅度,但使用的前提並不一樣,通常只需要使用其中一個即可,具體使用的標準和說明如下:

別錯過,卡方檢驗實用總結!

第1點:卡方檢驗資料格式問題?

有時候會出現一種疑問,比如看下面的例子。

當前想研究性別和滿意度的差異關係,滿意度分為“非常不滿意、比較不滿意、一般、滿意和非常滿意”共五項。滿意度看上去更像是定量資料,而非定類資料,但看成是定類資料也可以。

那麼此時到底用卡方呢,還是使用方差(也或者非引數檢驗呢?)。其實這裡的滿意度是一種有序的定類資料,一般這種資料可能看成是定量更多,即使用方差分析更適合(當然也可使用卡方檢驗)。

但比如醫學裡面有這樣的資料“未見療效,好轉和治癒”,這個也是有序的定類資料,這個僅3項,看成是定類資料就更適合了,所以使用卡方檢驗較好。