別錯過,卡方檢驗實用總結!
通常情況下,
卡方檢驗是研究分類資料與分類資料之間關係的分析方法
,如性別和是否戴隱形眼鏡之間的關係。卡方檢驗通常會涉及卡方值和P值兩個名詞術語。卡方值與P值有對應關係,P值小於0。05則說明有差異存在,即性別與是否戴隱形眼鏡之間有聯絡。在具體差異分析的基礎上,進一步分析不同性別樣本戴隱形眼鏡的百分比,例如,男性戴隱形眼鏡的百分比為30%,而女性戴隱形眼鏡的百分比為50%,說明女性樣本戴隱形眼鏡的比例要明顯高於男性樣本。
除此之外,卡方檢驗(準確說是卡方擬合優度檢驗)還可以
檢驗定類資料的分佈特徵是否與預期保持一致。
比如本來預計男性和女性的比例各佔一半(50%),但收集回來的資料卻是45%和55%,那麼收集回來的資料是否就明顯的偏差預期(50%)呢?此時也可以使用卡方檢驗。
卡方檢驗在實際使用過程中,還可用於問卷多選題的分析(也稱作多重響應分析),比如多選題的選擇比例是否均勻,也或者單選題和多選題之間的差異關係情況如何呢,均可使用卡方檢驗進行分析。下表格為卡方檢驗的實際使用型別說明:
卡方檢驗實際應用
1卡方檢驗理論說明
通常理解的卡方檢驗,其檢驗目的在於定類和定類資料的差異。比如性別和是否戴眼鏡的關係,性別和是否戴眼鏡都是定類資料,因此可以研究性別和是否戴眼鏡的比例是否有明顯的差異性。
除此之外,還有一種卡方檢驗(準確說是卡方擬合優度檢驗),其目的是研究定類資料各選項的分佈比例上是否有著差異性,比如性別男和女預期是50%和50%,那事實上的樣本是否明顯的偏離這一比例呢,這種即卡方擬合優度檢驗。
在問卷研究裡面,有很多的多選題,多選題各項的比例是否均勻呢?那麼就可以利用卡方擬合優度檢驗進行分析(SPSSAU預設提供);如果想研究單選題和多選題的選擇差異關係,那麼這種是研究定類資料和定類資料的差異性,SPSSAU預設也提供卡方檢驗結果。
1卡方檢驗理論說明
卡方檢驗SPSSAU操作
1) 絕大多數情況下,均是直接研究定類和定類資料差異,SPSSAU共有兩個地方可實現,分別是通用方法裡面的“交叉(卡方)”和醫學研究裡面的卡方檢驗。如果是彙總資料,即加權資料,此時只能使用醫學研究裡面的卡方檢驗,同時,如果希望提供更多詳細的資料指標,比如自由度,列聯絡數,Cramer V等,均需要使用醫學研究裡面的卡方檢驗。
2) 如果是進行卡方擬合優度檢驗,即研究定類資料選項佔比差異,此時應該使用醫學研究裡面的卡方擬合優度檢驗。操作如下圖所示:
預設SPSSAU會假定選項的選擇比例完全一致,即男和女的比例是50%和50%。如果預期是40%和60%,那麼可對“期望值設定(預設相等)”這個按鈕進行設定,如下圖:
3) 如果是問卷研究裡面的多選題操作,直接使用SPSSAU問卷研究裡面對應多選題的按鈕即可,比如下圖:
如果是希望研究多選題的選擇比例和選擇差異情況,那麼直接使用‘多選題’;
如果是研究單選題和多選題的差異情況,使用‘單選-多選’;
如果是研究多選題和單選題的差異情況,使用‘多選-單選’;
如果是研究多選題和多選題的差異情況,使用‘多選-多選’;
特別說明一點:多選題的資料格式非常特殊,一個選項一個標題,比如5個選項就有5個標題,而且需要使用數字標識‘選中’還是‘沒有選中’,一般情況下數字1表示‘選中’,數字0表示‘沒有選中’。
如果原始資料使用數字表示選中,null值表示沒有選中,那麼需要把null值全部替換成數字0,可使用SPSSAU資料處理->異常值功能進行批次處理,把null值即缺失值填補成數字0即可。
2 如何使用SPSSAU進行卡方檢驗
使用卡方檢驗時,資料格式非常重要,因為SPSSAU支付加權和非加權兩種格式,而且有時想利用卡方檢驗檢視相關關係情況,此時還需要看一些新的指標,比如列聯絡數、Cramer V或Lambda指標等。當然還會有一些其它問題,彙總如下圖:
2 如何使用SPSSAU進行卡方檢驗
SPSSAU共支援2種資料格式,分別是常規資料格式(非加權格式)和加權格式,如下說明:
上圖為常規格式(即非加權格式),一行代表一個樣本,一列代表一個屬性,將全部的原始資料資訊列出即可,比如有100個樣本,那麼就有100行資料。
在醫學/實驗研究時,很多時候只有彙總資料,即帶加權項的資料,比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,資料資訊只有6種組別的彙總項(即加權項),分別是40,10,20,30,20,50;相當於總共有170個樣本,如果是使用常規格式(即非加權格式),此時應該有170行;但加權格式則只需要6行即可表示,如下圖:
在使用SPSSAU醫學研究-》卡方檢驗,也或者醫學研究-》卡方擬合優度檢驗時,SPSSAU均支援加權資料格式。一旦資料是加權格式,那麼分析時需要把‘加權項’放到對應的框中即可。
3 卡方檢驗相關問題?
在SPSSAU的醫學研究->卡方檢驗裡面,如果資料是2*2格式,比如性別為男和女2個選項,學歷分為本科以下和本科以上共2個選項。那麼此時為2*2的組合,此時spssau預設會提供fisher卡方檢驗值。
當然,SPSSAU還會提供一些其它的卡方指標值,包括pearson卡方,連續校正卡方,各選擇單元格的期望值和比例值等中間過程值等等(當然具體應該使用那一個,SPSSAU會自動進行判斷和選擇),下圖僅為中間過程值等。
3 卡方檢驗相關問題?
如果希望看出差異的幅度,而不僅僅是看是否有差異。除了使用肉眼進行分析,即對比選擇百分比的具體值情況進行分析外。還可以使用效應量(effect size),effect size值通常包括Phi、列聯絡數、校正列聯絡數、Cramer V和Lambda等。此五個係數的意義都是檢視差異幅度,但使用的前提並不一樣,通常只需要使用其中一個即可,具體使用的標準和說明如下:
第1點:卡方檢驗資料格式問題?
有時候會出現一種疑問,比如看下面的例子。
當前想研究性別和滿意度的差異關係,滿意度分為“非常不滿意、比較不滿意、一般、滿意和非常滿意”共五項。滿意度看上去更像是定量資料,而非定類資料,但看成是定類資料也可以。
那麼此時到底用卡方呢,還是使用方差(也或者非引數檢驗呢?)。其實這裡的滿意度是一種有序的定類資料,一般這種資料可能看成是定量更多,即使用方差分析更適合(當然也可使用卡方檢驗)。
但比如醫學裡面有這樣的資料“未見療效,好轉和治癒”,這個也是有序的定類資料,這個僅3項,看成是定類資料就更適合了,所以使用卡方檢驗較好。